ES2329046T3 - Procedimiento y dispositivo para la mejora de voz en presencia de ruido de fondo. - Google Patents
Procedimiento y dispositivo para la mejora de voz en presencia de ruido de fondo. Download PDFInfo
- Publication number
- ES2329046T3 ES2329046T3 ES04802378T ES04802378T ES2329046T3 ES 2329046 T3 ES2329046 T3 ES 2329046T3 ES 04802378 T ES04802378 T ES 04802378T ES 04802378 T ES04802378 T ES 04802378T ES 2329046 T3 ES2329046 T3 ES 2329046T3
- Authority
- ES
- Spain
- Prior art keywords
- frequency
- voice
- noise
- bands
- container
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000001629 suppression Effects 0.000 claims abstract description 70
- 230000003595 spectral effect Effects 0.000 claims abstract description 36
- 238000001228 spectrum Methods 0.000 claims description 37
- 238000009499 grossing Methods 0.000 claims description 17
- 230000000694 effects Effects 0.000 claims description 16
- 238000012423 maintenance Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 4
- 230000009131 signaling function Effects 0.000 claims 1
- 238000005192 partition Methods 0.000 abstract 1
- 230000009467 reduction Effects 0.000 description 41
- 238000012545 processing Methods 0.000 description 33
- 238000010183 spectrum analysis Methods 0.000 description 16
- 238000005070 sampling Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000005923 long-lasting effect Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 230000005534 acoustic noise Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 102000056950 Gs GTP-Binding Protein alpha Subunits Human genes 0.000 description 1
- 108091006065 Gs proteins Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
- Telephone Function (AREA)
- Devices For Executing Special Programs (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
Un procedimiento para la supresión de ruido de una señal de voz, que comprende: llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia; y agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia, caracterizado porque cuando se detecta actividad de voz sonora en la señal de voz se lleva a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y se lleva a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.
Description
Procedimiento y dispositivo para la mejora de
voz en presencia de ruido de fondo.
La presente invención se refiere a una técnica
para perfeccionar las señales de voz y mejorar la comunicación en
presencia de ruido de fondo. En particular, pero no exclusivamente,
la presente invención se refiere al diseño de un sistema de
reducción de ruido que reduce el nivel de ruido de fondo en la señal
de voz.
\vskip1.000000\baselineskip
La reducción del nivel de ruido de fondo es muy
importante en muchos sistemas de comunicaciones. Por ejemplo, los
teléfonos móviles se usan en muchos entornos en los que hay un alto
nivel de ruido de fondo. Tales entornos incluyen los coches (en los
que se utiliza cada vez más el sistema "manos libres"), o la
calle, por lo que el sistema de comunicación necesita funcionar en
presencia de altos niveles de ruido provocados por el coche o de
ruido de la calle. En aplicaciones ofimáticas, tales como
videoconferencia y aplicaciones de internet de manos libres, el
sistema necesita hacer frente al ruido de la oficina de una manera
eficaz. Otros tipos de ruidos ambientales también pueden
experimentarse en la práctica. La reducción de ruido, también
conocida como la supresión de ruido, o mejora de voz, se vuelve un
elemento importante para estas aplicaciones, que con frecuencia
necesitan funcionar a bajas relaciones señal a ruido (SNR,
signal-to-noise ratio). La
reducción de ruido también es importante en sistemas automáticos de
reconocimiento de voz que se utilizan cada vez más en una variedad
de entornos reales. La reducción de ruido mejora el rendimiento de
los algoritmos de codificación de voz o de los algoritmos de
reconocimiento de voz utilizados normalmente en las aplicaciones
mencionadas anteriormente.
La sustracción espectral es una de las técnicas
más utilizadas para la reducción de ruido (véase el documento
"Suppression of acoustic noise in speech using spectral
subtraction" por S. F. BolI, IEEE Trans. Acoust., Speech,
Signal Processing, vol. ASSP-27, páginas 113 a 120,
abril de 1979). La sustracción espectral trata de estimar la
magnitud espectral de corta duración de la voz sustrayendo una
estimación de ruido de la voz ruidosa. La fase de la voz ruidosa no
se procesa, en base a la suposición de que el oído humano no percibe
la distorsión de fase. En la práctica, la sustracción espectral se
implementa formando una función de ganancia basada en la SNR a
partir de las estimaciones del espectro de ruido y del espectro de
voz ruidosa. Esta función de ganancia se multiplica por el espectro
de entrada para suprimir las componentes de frecuencia con una SNR
baja. La principal desventaja de utilizar algoritmos convencionales
de sustracción espectral es el ruido residual musical resultante
que consiste en "tonos musicales" que perturban al oyente así
como a los algoritmos de procesamiento de señal posteriores (tales
como la codificación de voz). Los tonos musicales se deben
principalmente a la discrepancia en las estimaciones de espectro.
Para resolver este problema se ha sugerido el alisado espectral,
dando como resultado una resolución y una discrepancia reducidas.
Otro procedimiento conocido para reducir los tonos musicales es
utilizar un factor de sobresustracción en combinación con un umbral
mínimo espectral (véase el documento "Enhancement of speech
corrupted by acoustic noise", por M. Berouti, R. Schwartz, y
J. Makhoul, en Proc. IEEE ICASSP, Washington, DC, abril de 1979,
páginas 208 a 211). Este procedimiento tiene la desventaja de
degradar la voz cuando los tonos musicales se reducen
suficientemente. Otros enfoques son el filtrado de supresión de
ruido de decisión flexible (véase el documento "Speech
enhancement using a soft decision noise suppression filter"
por R. J. McAulay y M. L. Malpass, IEEE Trans. Acoust., Speech,
Signal Processing, vol. ASSP-28, páginas 137 a 145,
abril de 1980) y la sustracción espectral no lineal (véase el
documento "Experiments with a nonlinear spectral subtractor
(NSS), hidden Markov models and projection, for robust recognition
in cars", por P. Lockwood y J. Boudy, Speech Commun., vol.
11, páginas 215 a 228, junio de
1992).
1992).
Otro procedimiento conocido para reducir el
ruido musical se describe en el documento de patente
US-A1-2003/0023430.
\vskip1.000000\baselineskip
En un aspecto de esta invención, según se
reivindica en las reivindicaciones adjuntas, se proporciona un
procedimiento para la supresión de ruido de una señal de voz, que
comprende:
- \quad
- llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia (frequency bins); y
- \quad
- agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia,
- \quad
- caracterizado porque cuando se detecta actividad de voz sonora en la señal de voz, se lleva a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y se lleva a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.
\newpage
En otro aspecto de esta invención se proporciona
un dispositivo para suprimir ruido en una señal de voz, estando
dispuesto el dispositivo para:
- \quad
- llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia; y
- \quad
- agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia,
- \quad
- caracterizado porque el dispositivo está dispuesto para detectar actividad de voz sonora y cuando se detecta actividad de voz sonora en la señal de voz, para llevar a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y para llevar a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.
\vskip1.000000\baselineskip
En un aspecto adicional de esta invención se
proporciona un codificador de voz que comprende un dispositivo para
la supresión de ruido, estando dispuesto dicho dispositivo para:
- \quad
- llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia; y
- \quad
- agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia,
- \quad
- caracterizado porque el dispositivo está dispuesto para detectar actividad de voz sonora y cuando se detecta actividad de voz sonora en la señal de voz, para llevar a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y para llevar a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.
\vskip1.000000\baselineskip
En otro aspecto adicional de esta invención se
proporciona un sistema automático de reconocimiento de voz que
comprende un dispositivo para la supresión de ruido, estando
dispuesto dicho dispositivo para:
- \quad
- llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia; y
- \quad
- agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia,
- \quad
- caracterizado porque el dispositivo está dispuesto para detectar actividad de voz sonora y cuando se detecta actividad de voz sonora en la señal de voz, para llevar a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y para llevar a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.
\vskip1.000000\baselineskip
En otro aspecto adicional de esta invención se
proporciona un teléfono móvil que comprende un dispositivo para la
supresión de ruido, estando dispuesto dicho dispositivo para:
- \quad
- llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia; y
- \quad
- agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia,
- \quad
- caracterizado porque el dispositivo está dispuesto para detectar actividad de voz sonora y cuando se detecta actividad de voz sonora en la señal de voz, para llevar a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y para llevar a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.
\vskip1.000000\baselineskip
Los anteriores y otros objetos, ventajas y
características de la presente invención se harán más evidentes
tras la lectura de la siguiente descripción no limitativa de una
realización ilustrativa de la misma, proporcionada a modo de
ejemplo solamente con referencia a los dibujos adjuntos. En los
dibujos adjuntos:
la figura 1 es un diagrama de bloques
esquemático de un sistema de comunicación de voz que incluye
reducción de ruido;
la figura 2 muestra una ilustración de una
división en ventanas de un análisis espectral;
la figura 3 proporciona una visión global de una
realización ilustrativa de un algoritmo de reducción de ruido;
y
la figura 4 es un diagrama de bloques
esquemático de una realización ilustrativa de una reducción de ruido
específica de clase en la que el algoritmo de reducción depende de
la naturaleza de la trama de voz que está procesándose.
En la presente memoria descriptiva se describen
técnicas eficaces para la reducción de ruido. Las técnicas se basan
al menos en parte en dividir la amplitud del espectro en bandas
críticas y calcular una función de ganancia basada en la SNR por
banda crítica similar al enfoque utilizado en el códec de voz EVRC
(véase la norma C.S0014-0 "Enhanced Variable
Rate Codec (EVRC) Service Option for Wideband Spread Spectrum
Communication Systems", de 3GPP2, Especificación Técnica de
3GPP2, diciembre de 1999). Por ejemplo, se describen características
que utilizan diferentes técnicas de procesamiento basadas en la
naturaleza de la trama de voz que está procesándose. En tramas
sordas, se utiliza un procesamiento por banda en todo el espectro.
En tramas en las que la sonoridad se detecta hasta una determinada
frecuencia, se utiliza un procesamiento por contenedor en la parte
inferior del espectro donde se detecta la sonoridad y se utiliza un
procesamiento por banda en las bandas restantes. En el caso de
tramas de ruido de fondo, se elimina un umbral mínimo de ruido
constante utilizando la misma ganancia de escalado en todo el
espectro. Además, se describe una técnica en la que el alisado de la
ganancia de escalado en cada banda o contenedor de frecuencia se
lleva a cabo utilizando un factor de alisado que está relacionado
de manera inversa con la ganancia de escalado real (el alisado es
más fuerte para ganancias más pequeñas). Este enfoque impide la
distorsión en segmentos de voz con una SNR alta precedidos por
tramas con una SNR baja, como es el caso de los ataques sonoros,
por ejemplo.
Un aspecto no limitativo de esta invención
proporciona procedimientos novedosos para la reducción de ruido en
base a técnicas de sustracción espectral, por lo que el
procedimiento de reducción de ruido depende de la naturaleza de la
trama de voz que está procesándose. Por ejemplo, en tramas sonoras,
el procesamiento puede llevarse a cabo por cada contenedor por
debajo de una determinada frecuencia.
En una realización ilustrativa, la reducción de
ruido se lleva a cabo en un sistema de codificación de voz para
reducir el nivel de ruido de fondo en la señal de voz antes de
codificarse. Las técnicas descritas pueden emplearse con señales de
voz de banda estrecha muestreadas a 8000 muestras/s o con señales de
voz de banda ancha muestreadas a 16000 muestras/s, o a cualquier
otra frecuencia de muestreo. El codificador utilizado en esta
realización ilustrativa se basa en un códec AMR-WB
(véase el documento "Suppression of acoustic noise in speech
using spectral subtraction" por S. F. Boll, IEEE Trans.
Acoust., Speech, Signal Processing, vol. ASSP-27,
páginas 113 a 120, abril de 1979), el cual utiliza una conversión de
muestreo interna para convertir la frecuencia de muestreo de señal
a 12800 muestras/s (funcionando a un ancho de banda de 6,4 kHz).
Por lo tanto, la técnica de reducción de ruido
descrita en esta realización ilustrativa funciona en señales de
banda estrecha o de banda ancha después de la conversión de muestreo
a 12,8 kHz.
En el caso de entradas de banda ancha, la señal
de entrada tiene que reducirse de 16 kHz a 12,8 kHz. La reducción
se lleva a cabo en primer lugar muestreando de manera ascendente por
4 y filtrando después la salida a través de un filtro FIR de paso
bajo que presenta una frecuencia de corte a 6,4 kHz. Después, la
señal se muestrea de manera descendente por 5. El retardo de
filtrado es de 15 muestras a una frecuencia de muestreo de 16
kHz.
En el caso de entradas de banda estrecha, la
señal tiene que muestrearse de manera ascendente desde 8 kHz hasta
12,8 kHz. Esto se lleva a cabo en primer lugar muestreando de manera
ascendente por 8 y filtrando después la salida a través de un
filtro FIR de paso bajo que presenta una frecuencia de corte a 6,4
kHz. Después, la señal se muestrea de manera descendente por 5. El
retardo de filtrado es de 8 muestras a una frecuencia de muestreo
de 8 kHz.
Después de la conversión de muestreo, se aplican
dos funciones de preprocesamiento a la señal antes del proceso de
codificación: filtrado de paso alto y preacentuación.
El filtro de paso alto sirve como una precaución
contra componentes de baja frecuencia no deseadas. En esta
realización ilustrativa se utiliza un filtro a una frecuencia de
corte de 50 Hz, y viene dado por
En la preacentuación se utiliza un filtro de
paso alto de primer orden para acentuar frecuencias superiores y
viene dada por
La preacentuación se utiliza en el códec
AMR-WB para mejorar el rendimiento del códec a altas
frecuencias y para mejorar la ponderación perceptual en el proceso
de minimización de errores utilizado en el codificador.
En el resto de esta realización ilustrativa, la
señal en la entrada del algoritmo de reducción de ruido se
convierte a una frecuencia de muestreo de 12,8 kHz y se preprocesa
tal y como se ha descrito anteriormente. Sin embargo, las técnicas
descritas pueden aplicarse igualmente a señales a otras frecuencias
de muestreo tales como 8 kHz o 16 kHz con o sin
preprocesamiento.
A continuación se describirá en detalle el
algoritmo de reducción de ruido. El codificador de voz en el que se
utiliza el algoritmo de reducción de ruido funciona con tramas de 20
ms que contienen 256 muestras a una frecuencia de muestreo de 12,8
kHz. Además, el codificador utiliza una anticipación de 13 ms con
respecto a la trama futura en su análisis. La reducción de ruido
sigue la misma estructura de entramado. Sin embargo, pueden
introducirse algunos cambios entre el entramado del codificador y el
entramado de reducción de ruido para maximizar el uso de la
anticipación. En esta descripción, los índices de las muestras
reflejarán el entramado de reducción de ruido.
La figura 1 muestra una visión general de un
sistema de comunicación de voz que incluye reducción de ruido. En
el bloque 101 se lleva a cabo un preprocesamiento como el ejemplo
ilustrativo descrito anteriormente.
En el bloque 102 se lleva a cabo un análisis
espectral y una detección de actividad de voz (VAD, voice
activity detection). Dos análisis espectrales se llevan a cabo
en cada trama utilizando ventanas de 20 ms con un solapamiento del
50%. En el bloque 103, se aplica una reducción de ruido a los
parámetros espectrales y después se utiliza la DFT inversa para
volver a convertir la señal mejorada al dominio de tiempo. Después
se utiliza una operación de solapamiento y suma para reconstruir la
señal.
En el bloque 104 se lleva a cabo un análisis de
predicción lineal (LP, linear prediction) y un análisis de
tono en bucle abierto (normalmente como parte del algoritmo de
codificación de voz). En esta realización ilustrativa, los
parámetros resultantes del bloque 104 se utilizan en la decisión
para actualizar las estimaciones de ruido en las bandas críticas
(bloque 105). La decisión VAD también puede utilizarse como la
decisión de actualización de ruido. Las estimaciones de energía de
ruido actualizadas en el bloque 105 se utilizan en la siguiente
trama en el bloque 103 de reducción de ruido para calcular las
ganancias de escalado. El bloque 106 lleva a cabo una codificación
de voz en la señal de voz mejorada. En otras aplicaciones, el bloque
106 puede ser un sistema automático de reconocimiento de voz.
Obsérvese que las funciones del bloque 104 pueden ser una parte
integral del algoritmo de codificación de voz.
\vskip1.000000\baselineskip
La transformada discreta de Fourier se utiliza
para llevar a cabo el análisis espectral y la estimación de energía
de espectro. El análisis de frecuencia se lleva a cabo dos veces por
trama utilizando la transformada rápida de Fourier (FFT, Fast
Fourier Transform) de 256 puntos con un solapamiento del 50 por
ciento (tal y como se ilustra en la figura 2). Las ventanas de
análisis se colocan de manera que se utilice toda la anticipación.
Se colocan 24 muestras al principio de la primera ventana después
del principio de la trama actual del codificador de voz. En la
segunda ventana se colocan 128 muestras adicionales. La raíz
cuadrada de una ventana Hanning (que es equivalente a una ventana
sinusoidal) se ha utilizado para ponderar la señal de entrada para
el análisis de frecuencia. En particular, esta ventana es muy
adecuada para procedimientos de solapamiento y suma (por lo tanto,
este análisis espectral particular se utiliza en el algoritmo de
supresión de ruido en base a la sustracción espectral y al
análisis/síntesis de solapamiento y suma). La ventana Hanning de
raíz cuadrada viene dada por
donde L_{FFT}=256 es el
tamaño del análisis FTT. Obsérvese que sólo se calcula y se almacena
la mitad de la ventana ya que es simétrica (de 0 a
L_{FFT}/2).
Denótese como s'(n) la señal con índice 0
correspondiente a la primera muestra de la trama de reducción de
ruido (en esta realización ilustrativa hay 24 muestras más que al
principio de la trama de codificador de voz). La señal dividida en
ventanas para ambos análisis espectrales se obtiene como
donde s'(0) es la primera
muestra en la trama de reducción de ruido
actual.
La FFT se lleva a cabo en ambas señales
divididas en ventanas para obtener dos conjuntos de parámetros
espectrales por trama:
La salida de la FFT proporciona la parte real y
la parte imaginaria del espectro denotadas por
X_{R}(k), k=0 hasta 128, y
X_{I}(k), k=1 hasta 127. Obsérvese que
X_{R}(0) corresponde al espectro a 0 Hz (DC) y
X_{R}(128) corresponde al espectro a 6400 Hz. El espectro
en estos puntos es solamente un valor real y normalmente se ignora
en el posterior análisis.
Después del análisis FFT, el espectro resultante
se divide en bandas críticas utilizando los intervalos que
presentan los siguientes límites superiores (20 bandas en el
intervalo de frecuencia de 0 a 6400 Hz):
bandas críticas = {100,0; 200,0; 300,0; 400,0;
510,0; 630,0; 770,0; 920,0; 1080,0; 1270,0; 1480,0; 1720,0; 2000,0;
2320,0; 2700,0; 3150,0; 3700,0; 4400,0; 5300,0; 6350,0} Hz.
Véase el documento "Transform coding of
audio signal using perceptual noise criteria", por D.
Johnston, IEEE J. Select. Areas Commun., vol. 6, páginas 314 a 323,
febrero de 1988.
La FFT de 256 puntos da como resultado una
resolución de frecuencia de 50 Hz (6400/128). Por lo tanto, después
de ignorar la componente DC del espectro, el número de contenedores
de frecuencia por cada banda crítica es M_{BC} = {2, 2, 2,
2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 8, 9, 11, 14, 18, 21},
respectivamente.
La energía media en una banda crítica se calcula
como
donde X_{R}(k) y
X_{I}(k) son, respectivamente, la parte real y la
parte imaginaria del k-ésimo contendor de frecuencia y
j_{i} es el índice del primer contenedor de la i-ésima
banda crítica dada por j_{i} = {1, 3, 5, 7, 9, 11, 13, 16,
19, 22, 26, 30, 35, 41, 47, 55, 64, 75, 89,
107}.
El módulo de análisis espectral también calcula
la energía por contenedor de frecuencia, E_{BIN}(k),
para las 17 primeras bandas críticas (74 contenedores excluyendo la
componente DC)
Finalmente, el módulo de análisis espectral
calcula la energía total media para ambos análisis FTT en una trama
de 20 ms sumando las energías medias de banda crítica
E_{CB}. Es decir, la energía de espectro para un
determinado análisis espectral se calcula como
y la energía de trama total se
calcula como la media de las energías de espectro de ambos análisis
espectrales en una trama. Es
decir,
Los parámetros de salida del módulo de análisis
espectral, es decir, la energía media por banda crítica, la energía
por contenedor de frecuencia y la energía total se utilizan en los
módulos VAD, de reducción de ruido y de selección de velocidad.
Obsérvese que para entradas de banda estrecha
muestreadas a 8000 muestras/s, después de una conversión de
muestreo a 12800 muestras/s, no hay contenido en ambos extremos del
espectro, por lo que la primera banda crítica de frecuencia
inferior así como las tres últimas bandas de alta frecuencia no se
consideran en el cálculo de los parámetros de salida (sólo se
consideran las bandas desde i = 1 hasta 16).
El análisis espectral descrito anteriormente se
lleva a cabo dos veces por trama. Denoten
E_{CB}^{(1)}(i) y E_{CB}^{(2)}(i)
la información de energía por banda crítica para el primer y el
segundo análisis espectral, respectivamente (tal y como se calcula
en la ecuación (2)). La energía media por banda crítica para toda la
trama y parte de la trama anterior se calcula como
donde
E_{CB}^{(0)}(i) denota la información de energía
por banda crítica del segundo análisis de la trama anterior. La
relación señal a ruido (SNR) por banda crítica se calcula entonces
como
donde N_{CB}(i) es
la energía de ruido estimada por banda crítica tal y como se
explicará en la siguiente sección. La SNR media por trama se
calcula entonces
como
donde b_{min}=0 y
b_{max}=19 en caso de señales de banda ancha, y
b_{min}=1 y b_{max}=16 en caso de señales de
banda
estrecha.
La actividad de voz se detecta comparando la SNR
media por trama con un determinado umbral que es una función de la
SNR de larga duración. La SNR de larga duración viene dada por
donde
\overline{\mathit{E}}_{\fint} y
\overline{\mathit{N}}_{\fint} se calculan utilizando la
ecuaciones (12) y (13), respectivamente, las cuales se describirán
posteriormente. El valor inicial de
\overline{\mathit{E}}_{\fint} es de 45
dB.
El umbral es una función lineal por segmentos de
la SNR de larga duración. Se utilizan dos funciones, una para la
voz limpia y otra para la voz ruidosa.
Para señales de banda ancha, si
SNR_{LT} < 35 (voz ruidosa), entonces
si no (voz
limpia)
Para señales de banda estrecha, si
SNR_{LT} < 29,6 (voz ruidosa), entonces
si no (voz
limpia)
Además, se añade una histéresis en la decisión
VAD para impedir una conmutación de frecuencia al final de un
periodo de voz activa. Esto se aplica en caso de que la trama esté
en un periodo de mantenimiento flexible o si la última trama es una
trama de voz activa. El periodo de mantenimiento flexible consiste
en las 10 primeras tramas después de cada ráfaga de voz activa
mayor que 2 tramas consecutivas. En caso de voz ruidosa
(SNR_{LT} < 35), la histéresis disminuye el umbral de
decisión VAD en
En caso de voz limpia, la histéresis disminuye
el umbral de decisión VAD en
Si la SNR media por trama es mayor que el umbral
de decisión VAD, es decir, si SNR_{av} >
Umb_{VAD}, entonces la trama se considera como una trama
de voz activa y el indicador VAD y un indicador VAD local se fijan
a 1. En caso contrario, el indicador VAD y el indicador VAD local se
fijan a 0. Sin embargo, en caso de voz ruidosa, el indicador VAD se
fuerza a 1 en tramas de mantenimiento firme, es decir, una o dos
tramas inactivas después de un periodo de voz
mayor que 2 tramas consecutivas (entonces, el indicador VAD local es igual a 0 pero el indicador VAD se fuerza a 1).
mayor que 2 tramas consecutivas (entonces, el indicador VAD local es igual a 0 pero el indicador VAD se fuerza a 1).
\vskip1.000000\baselineskip
En esta sección se calcula la energía de ruido
total, la energía de trama relativa, la actualización de la energía
de ruido media de larga duración y de la energía de trama media de
larga duración, la energía media por banda crítica y un factor de
corrección de ruido. Además, se proporciona una inicialización de
energía de ruido y una actualización descendente.
La energía de ruido total por trama viene dada
por
donde N_{CB}(i) es
la energía de ruido estimada por banda
crítica.
La energía relativa de la trama viene dada por
la diferencia entre la energía de trama en dB y la energía media de
larga duración. La energía de trama relativa viene dada por
donde E_{t} se proporciona
en la ecuación
(5).
La energía de ruido media de larga duración o la
energía de trama media de larga duración se actualizan en cada
trama. En caso de tramas de voz activa (indicador VAD = 1), la
energía de trama media de larga duración se actualiza utilizando la
relación
con un valor inicial de
\overline{E}_{\fint} = 45
dB.
En caso de tramas de voz inactivas (indicador
VAD = 0), la energía de ruido media de larga duración se actualiza
mediante
El valor inicial
\overline{\mathit{N}}_{\fint} de se fija igual a
N_{tot} para las 4 primeras tramas. Además, en las 4
primeras tramas, el valor de \overline{\mathit{E}}_{\fint} está
delimitado por \overline{\mathit{E}}_{\fint} \geq
\overline{\mathit{N}}_{tot} + 10.
\vskip1.000000\baselineskip
La energía de trama por banda crítica para toda
la trama se calcula obteniendo la media de las energías de ambos
análisis espectrales en la trama. Es decir,
La energía de ruido por banda crítica
N_{CB} (i) se inicializa inicialmente a 0,03. Sin
embargo, en las 5 primeras subtramas, si la energía de señal no es
demasiado alta o si la señal no presenta fuertes componentes de
alta frecuencia, entonces la energía de ruido se inicializa
utilizando la energía por banda crítica de manera que el algoritmo
de reducción de ruido puede ser eficaz desde el principio del
procesamiento. Se calculan dos relaciones de alta frecuencia:
r_{15,16} es la relación entre la energía media de las
bandas críticas 15 y 16 y la energía media de las 10 primeras bandas
(la media de ambos análisis espectrales), y r_{18,19} es
la misma relación pero para las bandas 18 y 19.
En las 5 primeras tramas, si E_{t} <
49 y r_{15,16} < 2 y r_{18,19} < 1,5,
entonces para las 3 primeras tramas,
y para las dos siguientes tramas
N_{CB}(i) se actualiza
como
Para las siguientes tramas, en esta etapa, sólo
se lleva a cabo una actualización descendente de energía de ruido
para las bandas críticas, por lo que la energía es inferior a la
energía de ruido de fondo. En primer lugar, la energía de ruido
actualizada temporal se calcula como
donde
E_{CB}^{(0)}(i) corresponde al segundo análisis
espectral de la trama
anterior.
Entonces, para i = 0 hasta 19, si
N_{tmp}(i) < N_{CB}(i), entonces
N_{CB}(i) = N_{tmp}(i).
Después se lleva a cabo un segundo nivel de
actualización de ruido estableciendo que N_{CB}(i) =
N_{tmp}(i) si la trama se declara como trama
inactiva. La razón para fragmentar la actualización de energía de
ruido en dos partes es que la actualización de ruido sólo puede
ejecutarse durante tramas de voz inactivas y, por lo tanto, se
necesitan todos los parámetros necesarios para la decisión de
actividad de voz. Sin embargo, estos parámetros dependen del
análisis de predicción LP y del análisis de tono en bucle abierto,
ejecutados en señales de voz sin ruido. Para que el algoritmo de
reducción de ruido tenga una estimación de ruido lo más precisa
posible, la actualización de estimación de ruido se actualiza por
tanto de manera descendente antes de la ejecución de reducción de
ruido y después de manera ascendente si la trama está inactiva. La
actualización de ruido descendente es segura y puede llevarse a cabo
independientemente de la activad de voz.
La reducción de ruido se aplica al dominio de
señal y la señal sin ruido se reconstruye después utilizando
solapamiento y suma. La reducción se lleva a cabo escalando el
espectro en cada banda crítica con una ganancia de escalado
limitada entre g_{min} y 1 y se obtiene a partir la
relación señal a ruido (SNR) en esa banda crítica. Una nueva
característica en la supresión de ruido es que para frecuencias
inferiores a una determinada frecuencia relacionada con la
sonoridad de la señal, el procesamiento se lleva a cabo por cada
contenedor de frecuencia y no por cada banda crítica. Por tanto, se
aplica una ganancia de escalado a cada contenedor de frecuencia
obtenido a partir de la SNR en ese contenedor (la SNR se calcula
utilizando la energía de contenedor dividida por la energía de
ruido de la banda crítica que incluye a ese contenedor). Esta nueva
característica permite conservar la energía a frecuencias próximas a
los armónicos impidiendo la distorsión mientras que se reduce en
gran medida el ruido entre los armónicos. Esta característica puede
utilizarse solamente para señales sonoras y, dada la resolución de
frecuencia del análisis de frecuencia utilizado, para señales con
un periodo de tono relativamente corto. Sin embargo, éstas son
precisamente las señales en las que el ruido entre armónicos es más
perceptible.
La figura 3 muestra una visión general del
procedimiento descrito. En el bloque 301, se lleva a cabo el
análisis espectral. El bloque 302 verifica si el número de bandas
críticas sonoras es mayor que 0. Si es así, entonces se lleva a
cabo la reducción de ruido en el bloque 304 donde se lleva a cabo un
procesamiento por contenedor en las K primeras bandas
sonoras y donde se lleva a cabo un procesamiento por banda en las
bandas restantes. Si K=0, entonces se aplica el
procesamiento por banda a todas las bandas críticas. Después de la
reducción de ruido en el espectro, el bloque 305 lleva a cabo el
análisis de DFT inversa y se utiliza la operación de solapamiento y
suma para reconstruir la señal de voz mejorada tal y como se
describirá posteriormente.
La ganancia de escalado mínima g_{min}
se obtiene a partir de la máxima reducción de ruido permitida en
dB, NR_{max}. La máxima reducción permitida tiene un valor
por defecto de 14 dB. Esta ganancia de escalado mínima viene dada
por
y es igual a 0,19953 para el valor
por defecto de 14
dB.
En caso de tramas inactivas con VAD=0, se aplica
el mismo escalado por todo el espectro y viene dada por
g_{s} = 0,9g_{min} si se activa la supresión de
ruido (si g_{min} es menor que 1). Es decir, las
componentes real e imaginaria escaladas del espectro vienen dadas
por
Obsérvese que para entradas de banda estrecha,
los límites superiores de la ecuación (19) se fijan a 79 (hasta
3950 Hz).
Para tramas activas, la ganancia de escalado se
calcula con relación a la SNR por banda crítica o por contenedor
para las primeras bandas sonoras. Si K_{SONORAS} > 0,
entonces la supresión de ruido por contenedor se lleva a cabo en
las K_{SONORAS} primeras bandas. La supresión de ruido por
banda se utiliza en el resto de las bandas. En caso de que
K_{SONORAS} = 0, la supresión de ruido por banda se utiliza
en todo el espectro. El valor de K_{SONORAS} se actualiza
tal y como se describirá posteriormente. El valor máximo de
K_{SONORAS} es 17, por lo que el procesamiento por
contenedor puede aplicarse solamente en las 17 primeras bandas
críticas correspondientes a una frecuencia máxima de 3700 Hz. El
número máximo de contenedores para los que puede utilizarse el
procesamiento por contenedor es de 74 (el número de contenedores en
las 17 primeras bandas). Hay una excepción para las tramas de
mantenimiento firme que se describirá posteriormente en esta
sección.
En una implementación alternativa, el valor de
K_{SONORAS} puede ser fijo. En este caso, en todos los
tipos de tramas de voz, el procesamiento por contenedor se lleva a
cabo hasta una banda determinada y el procesamiento por banda se
aplica a las otras bandas.
La ganancia de escalado en una banda crítica
determinada, o para un contenedor de frecuencia determinado, se
calcula en función de la SNR y viene dada por
Los valores de k_{s} y de
c_{s} se determinan de tal manera que g_{s} =
g_{min} para SNR = 1, y g_{s} = 1 para
SNR = 45. Para las SNR a 1 dB e inferiores, el escalado está
limitado a g_{s} y para las SNR a 45 dB y superiores, no
se lleva a cabo la supresión de ruido en la banda crítica dada
(g_{s}=1). Por lo tanto, dados estos dos puntos de extremo,
los valores de k_{s} y de c_{s} en la ecuación
(20) vienen dados por
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
La variable SNR en la ecuación (20) es la
SNR por banda crítica, SNR_{CB}(i), o la SNR por
contenedor de frecuencia, SNR_{BIN}(k), dependiendo
del tipo de procesamiento.
La SNR por banda crítica se calcula en el caso
del primer análisis espectral en la trama como
y para el segundo análisis
espectral, la SNR se calcula
como
\vskip1.000000\baselineskip
donde
E_{CB}^{(1)}(i) y E_{CB}^{(2)}(i)
denotan la información de energía por banda crítica para el primer y
el segundo análisis espectral, respectivamente (tal y como se
calcula en la ecuación (2)), E_{CB}^{(0)}(i)
denota la información de energía por banda crítica del segundo
análisis de la trama anterior, y N_{CB}(i) denota la
estimación de energía de ruido por banda
crítica.
La SNR por contenedor crítico en una determina
banda crítica i se calcula en el caso del primer análisis
espectral en la trama como
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
y para el segundo análisis
espectral, la SNR se calcula
como
\vskip1.000000\baselineskip
donde
E_{BIN}^{(1)}(i) y E_{BIN}^{(2)}(i)
denotan la energía por contenedor de frecuencia para el primer y el
segundo análisis espectral, respectivamente (tal y como se calcula
en la ecuación (3)), E_{BIN}^{(0)}(i) denota la
energía por contenedor de frecuencia del segundo análisis de la
trama anterior, N_{CB}(i) denota la estimación de
energía de ruido por banda crítica, j_{i} es el índice del
primer contenedor de la i-ésima banda crítica y
M_{CB}(i) es el número de contenedores de la banda
crítica i definida
anteriormente.
En caso de procesamiento por banda crítica para
una banda con índice i, después de determinar la ganancia de
escalado como en la ecuación (22) y utilizando la SNR definida en
las ecuaciones (24) o (25), el escalado real se lleva a cabo
utilizando una ganancia de escalado alisada y actualizada en cada
análisis de frecuencia como
En esta invención, una característica novedosa
es que el factor de alisado es adaptativo y está relacionado de
manera inversa con la propia ganancia. En esta realización
ilustrativa, el factor de alisado viene dado por
\alpha_{gs} = 1 - g_{s}. Es decir, el alisado es
más fuerte para ganancias g_{s} más pequeñas. Este enfoque
impide la distorsión en segmentos de voz con una alta SNR precedidos
por tramas con una SNR baja, como es el caso de ataques sonoros.
Por ejemplo, en tramas de voz sordas la SNR es baja, por lo que se
utiliza una ganancia de escalado fuerte para reducir el ruido en el
espectro. Si un ataque sonoro sigue a la trama sorda, la SNR se
vuelve más alta, y si el alisado de ganancia impide una rápida
actualización de la ganancia de escalado, entonces es probable que
se utilice un escalado fuerte en el ataque sonoro, lo que dará como
resultado un bajo rendimiento. En el enfoque propuesto, el
procedimiento de alisado puede adaptarse rápidamente y utilizar
ganancias de escalado inferiores en el ataque.
El escalado en la banda crítica viene dado
como
donde j_{i} es el índice
del primer contenedor de la banda crítica i y
M_{CB}(i) es el número de contenedores en esa banda
crítica.
En caso de procesamiento por contenedor en un
banda con índice i, después de determinar la ganancia de
escalado como en la ecuación (20) y utilizando la SNR definida en
las ecuaciones (24) o (25), el escalado real se lleva a cabo
utilizando una ganancia de escalado alisada y actualizada en cada
análisis de frecuencia como
donde \alpha_{gs} = 1 -
g_{s}, de manera similar a la ecuación
(26).
El alisado temporal de las ganancias impide
oscilaciones de energía audibles mientras que el control del alisado
utilizando \alpha_{gs} impide la distorsión en segmentos
de voz con una SNR alta precedidos por tramas con una SNR baja,
como es el caso de los ataques sonoros, por ejemplo.
El escalado en la banda crítica i se
lleva a cabo como
donde j_{i} es el índice
del primer contenedor de la banda crítica i y
M_{CB}(i) es el número de contenedores de esa banda
crítica.
Las ganancias de escalado alisadas
g_{BIN,LP}(k) y g_{CB,LP}(i) se
fijan inicialmente a 1. Cada vez que se procese una trama inactiva
(VAD = 0), los valores de ganancias alisadas se reajustan a la
g_{min} definida en la ecuación (18).
Tal y como se ha mencionado anteriormente, si
K_{SONORAS} > 0 se lleva a cabo una supresión de ruido
por contenedor en las K_{SONORAS} primeras bandas y se
lleva a cabo una supresión de ruido por banda en las bandas
restantes utilizando los procedimientos descritos anteriormente.
Obsérvese que en cada análisis espectral, las ganancias de escalado
alisadas g_{CB,LP}(i) se actualizan para todas las
bandas críticas (incluso para bandas sonoras procesadas mediante el
procesamiento por contenedor (en este caso
g_{CB,LP}(i) se actualiza con la media de
g_{BIN,LP}(k) perteneciente a la banda i). De
manera similar, las ganancias de escalado
g_{BIN,LP}(k) se actualizan para todos los
contenedores de frecuencia de las 17 primeras bandas (hasta el
contenedor 74). Las bandas procesadas mediante procesamiento por
banda se actualizan fijándolas igual a g_{CP,LP}(k)
en estas 17 bandas específicas.
Obsérvese que en caso de voz limpia, no se lleva
a cabo la supresión de ruido en tramas de voz activas (VAD = 1).
Esto se detecta hallando la máxima energía de ruido en todas las
bandas críticas, max(N_{CB}(i)), i = 0...19,
y si este valor es inferior o igual a 15, entonces no se lleva a
cabo la supresión de ruido.
Tal y como se ha mencionado anteriormente, para
tramas inactivas (VAD = 0), se aplica un escalado de 0,9
g_{min} a todo el espectro, lo que es equivalente a
eliminar un umbral mínimo de ruido constante. Para tramas VAD de
mantenimiento corto (VAD = 1 y VAD_local = 0), se aplica el
procesamiento por banda a las 10 primeras bandas tal y como se ha
descrito anteriormente (correspondiendo a 1700 Hz), y para el resto
del espectro, un umbral mínimo de ruido constante se sustrae
escalando el resto del espectro por un valor constante
g_{min}. Esta medida reduce significativamente las
oscilaciones de energía de ruido de alta frecuencia. Para las bandas
por encima de la décima banda, las ganancias de escalado alisadas
g_{CB,LP}(k) no se reajustan sino que se actualizan
utilizando la ecuación (26) con g_{s} = g_{min} y
las ganancias de escalado alisadas g_{BIN,LP}(k)
por contenedor se actualizan fijándolas igual a
g_{CB,LP}(i) en las bandas críticas
correspondientes.
El procedimiento descrito anteriormente puede
verse como una reducción de ruido específica de clase, donde el
algoritmo de reducción depende de la naturaleza de la trama de voz
que está procesándose. Esto se ilustra en la figura 4. El bloque
401 verifica si el indicador VAD es 0 (voz inactiva). Si es así,
entonces un umbral mínimo de ruido constante se elimina del
espectro aplicando la misma ganancia de escalado en todo el espectro
(bloque 402). En caso contrario, el bloque 403 verifica si la trama
es una trama de mantenimiento VAD. Si es así, entonces se utiliza
el procesamiento por banda en las 10 primeras bandas y se utiliza la
misma ganancia de escalado en las bandas restantes (bloque 406). En
caso contrario, el bloque 405 verifica si se detecta sonoridad en
las primeras bandas del espectro. Si es así, entonces se lleva a
cabo el procesamiento por contenedor en las K primeras
bandas sonoras y se lleva a cabo el procesamiento por banda en las
bandas restantes (bloque 406). Si no se detecta ninguna banda
sonora, entonces se lleva a cabo el procesamiento por banda en
todas las bandas críticas (bloque 407).
En caso de procesar señales de banda estrecha
(muestradas de manera ascendente hasta 12800 Hz), se lleva a cabo
la supresión de ruido en las 17 primeras bandas (hasta 3700 Hz).
Para los 5 contenedores de frecuencia restantes entre 3700 Hz y
4000 Hz, el espectro se escala utilizando la última ganancia de
escalado g_{s} en el contenedor a 3700 Hz. Para el resto
del espectro (desde 4000 Hz hasta 6400 Hz), es espectro se ajusta a
cero.
\vskip1.000000\baselineskip
Después de determinar las componentes
espectrales escaladas, X'_{R}(k) y
X'_{l}(k), se aplica la FFT inversa en el espectro
escalado para obtener la señal sin ruido divida en ventanas en el
dominio de tiempo.
Esto se repite para ambos análisis espectrales
en la trama para obtener las señales sin ruido divididas en
ventanas x_{w,d}^{(1)}(n) y
x_{w,d}^{(2)}(n). Para cada media trama, la señal se
reconstruye utilizando una operación de solapamiento y suma para
las partes solapadas del análisis. Puesto que se utiliza una ventana
Hanning de raíz cuadrada en la señal original antes del análisis
espectral, la misma ventana se aplica en la salida de la FFT inversa
antes de la operación de solapamiento y suma. Por tanto, la doble
señal sin ruido dividida en ventanas viene dada por
Para la primera mitad de la ventana de análisis,
la operación de solapamiento y suma para construir la señal sin
ruido se lleva a cabo como
y para la segunda mitad de la
ventana de análisis, la operación de solapamiento y suma para
construir la señal sin ruido se lleva a cabo
como
donde
x_{w,d}^{(0)}(n) es la doble señal sin ruido
dividida en ventanas del segundo análisis en la trama
anterior.
Obsérvese que con la operación de solapamiento y
suma, puesto que hay un desfase de 24 tramas entre la trama de
codificador de voz y la trama de reducción de ruido, la señal sin
ruido puede reconstruirse hasta 24 muestras con respecto a la
anticipación además de la trama actual. Sin embargo, todavía se
necesitan otras 128 muestras para completar la anticipación que
necesita el codificador de voz para el análisis de predicción lineal
(LP) y el análisis de tono en bucle abierto. Esta parte se obtiene
temporalmente mediante una división en ventanas inversa de la
segunda mitad de la señal sin ruido dividida en ventanas
x_{w,d}^{(2)}(n) sin llevar a cabo una operación de
solapamiento y suma. Es decir
Obsérvese que esta parte de la señal se
recalcula de manera adecuada en la siguiente trama utilizando la
operación de solapamiento y suma.
\vskip1.000000\baselineskip
Este módulo actualiza las estimaciones de
energía de ruido por banda crítica para la supresión de ruido. La
actualización se lleva a cabo durante periodos de voz inactiva. Sin
embargo, la decisión VAD llevada a cabo anteriormente, que se basa
en la SNR por banda crítica, no se utiliza para determinar si las
estimaciones de energía de ruido están actualizadas. Otra decisión
se lleva a cabo en base a otros parámetros independientes de la SRN
por banda crítica. Los parámetros utilizados para la decisión de
actualización de ruido son: la estabilidad de tono, la no
estacionalidad de la señal, la sonoridad y la relación entre las
energías de error residual LP de segundo orden y de decimosexto
orden y presentan generalmente poca sensibilidad a las variaciones
de nivel de ruido.
\newpage
La razón de no utilizar la decisión VAD de
codificador para la actualización de ruido es hacer la estimación
de ruido robusta para cambiar rápidamente niveles de ruido. Si se
utiliza la decisión VAD de codificador para la actualización de
ruido, un aumento repentino en el nivel de ruido provocaría un
aumento de la SNR incluso para tramas de voz inactivas, impidiendo
la actualización del estimador de ruido, lo que a su vez mantendría
la SNR alta en las siguientes tramas, etc. Por consiguiente, la
actualización de ruido estaría bloqueada y se necesitaría alguna
otra lógica para continuar con la adaptación de ruido.
En esta realización ilustrativa, el análisis de
tono en bucle abierto se lleva a cabo en el codificador para
calcular tres estimaciones de tono en bucle abierto por trama:
d_{0}, d_{1} y d_{2}, correspondientes a
la primera media trama, a la segunda media trama y a la
anticipación, respectivamente. El contador de estabilidad de tono
se calcula como
donde d_{-1} es el retardo de la
segunda media trama de la trama anterior. En esta realización
ilustrativa, para retardos de tono mayores que 122, el módulo de
búsqueda de tono en bucle abierto establece que d_{2} =
d_{1}. Por lo tanto, para tales retardos, el valor de
pc en la ecuación (31) se multiplica por 3/2 para compensar
el tercer término que falta en la ecuación. La estabilidad de tono
es cierta si el valor de pc es menor que 12. Además, para
tramas con baja sonoridad, pc se fija a 12 para indicar
inestabilidad de tono. Es
decir,
donde C_{norm}(d)
es la correlación aproximada normalizada y r_{e} es una
correlación opcional añadida a la correlación normalizada con el
fin de compensar la disminución de la correlación normalizada en
presencia de ruido de fondo. En esta realización ilustrativa, la
correlación normalizada se calcula en base a las señales de voz
ponderadas reducidas s_{wd}(n) y viene dada
por
donde el límite de suma depende del
propio retardo. En esta realización ilustrativa, la señal ponderada
utilizada en el análisis de tono en bucle abierto se reduce por 2 y
los límites de suma se proporcionan según lo
siguiente
La estimación de no estacionalidad de la señal
se lleva a cabo en base al producto de las relaciones entre la
energía por banda crítica y la energía media de larga duración por
banda crítica.
La energía media de larga duración por banda
crítica se actualiza mediante
donde b_{min} = 0 y
b_{max} = 19 en caso de señales de banda ancha, y
b_{min} = 1 y b_{max} = 16 en caso de señales de
banda estrecha, y \overline{\mathit{E}}_{CB} es la energía de
trama por banda crítica definida en la ecuación (14). El factor de
actualización \alpha_{e} es una función lineal de la
energía de trama total, definida en la ecuación (5), y viene dado
de la siguiente
manera:
Para señales de banda ancha:
\alpha_{e} = 0,0245_{tot} - 0,235 delimitado por
0,5 \leq \alpha_{e} \leq 0,99.
Para señales de banda estrecha:
\alpha_{e} = 0,00091E_{tot} + 0,3185 delimitado
por 0,5 \leq \alpha_{e} \leq 0,999.
La no estacionaridad de trama viene dada por el
producto de las relaciones entre la energía de trama y la energía
media de larga duración por banda crítica. Es decir
El factor de sonoridad para la actualización de
ruido viene dado por
Finalmente, la relación entre la energía
residual LP después del análisis de segundo orden y de decimosexto
orden viene dada por
donde E(2) y E(16)
son las energías residuales LP después del análisis de segundo orden
y de decimosexto orden, y calculadas en la recursión de
Levinson-Durbin ampliamente conocida por los
expertos en la técnica. Esta relación refleja el hecho de que para
representar una envoltura espectral de señal, generalmente se
necesita un orden superior de LP para la señal de voz que para el
ruido. Dicho de otro modo, se espera que la diferencia entre
E(2) y E(16) sea inferior para el ruido que para la
voz
activa.
La decisión de actualización se determina en
base a una variable actualización_ruido que inicialmente se
fija a 6, la cual disminuye en 1 si se detecta una trama inactiva y
aumenta en 2 si se detecta una trama activa. Además,
actualización_ruido está delimitada entre 0 y 6. Las energías
de ruido se actualizan solamente cuando
actualización_ruido = 0.
actualización_ruido = 0.
El valor de la variable
actualización_ruido se actualiza en cada trama de la
siguiente manera:
Si (noestac > Umb_{estac}) O
(pc < 12) O (sonoridad > 0,85) O
(rel_resid > Umb_{resid})
actualización_ruido =
actualización_ruido + 2
si no
actualización_ruido =
actualización_ruido - 1
donde para señales de banda ancha,
Umb_{estac} = 350000 y Umb_{resid} = 1,9, y para
señales de banda estrecha,
Umb_{estac} = 500000 y Umb_{resid} = 11.
Umb_{estac} = 500000 y Umb_{resid} = 11.
Dicho de otro modo, las tramas se declaran
inactivas para la actualización de ruido cuando
(noestac \leq Umb_{estac}) Y
(pc \geq 12) Y (sonoridad \leq 0,85) Y
(rel_resid \leq Umb_{resid}) y se utiliza un
mantenimiento de 6 tramas antes de tenga lugar la actualización de
ruido.
Por lo tanto, si actualización_ruido = 0,
entonces
para i =0 hasta 19 N_{CB}(i) =
N_{tmp}(i)
donde N_{tmp}(i) es la energía
de ruido actualizada temporal ya calculada en la ecuación (17).
\vskip1.000000\baselineskip
Se actualiza la frecuencia de corte por debajo
de la cual una señal se considera sonora. Esta frecuencia se
utiliza para determinar el número de bandas críticas para las que se
lleva a cabo la supresión de ruido usando el procesamiento por
contenedor.
\newpage
En primer lugar, una medición de sonoridad se
calcula como
y la frecuencia de corte de
sonoridad viene dada
por
Después se determina el número de bandas
críticas, K_{SONORAS}, que presentan una frecuencia
superior que no sobrepasa a f_{c}. Los límites de 325
\leq f_{c} \leq 3700 se fijan de tal manera que el
procesamiento por contenedor se lleva a cabo en un mínimo de 3
bandas y en un máximo de 17 bandas (se hace referencia a los
límites superiores de bandas críticas definidos anteriormente).
Obsérvese que en el cálculo de medición de la sonoridad se da más
peso a la correlación normalizada de la anticipación, puesto que el
número determinado de bandas sonoras se usará en la siguiente
trama.
Por tanto, en la siguiente trama, para las
K_{SONORAS} primeras bandas críticas, la supresión de ruido
utilizará el procesamiento por contenedor descrito
anteriormente.
Obsérvese que para tramas con una baja sonoridad
y para grandes retardos de altura de tono, sólo se utiliza el
procesamiento por banda crítica y, por lo tanto,
K_{SONORAS} se fija a 0. Se utiliza la siguiente
condición:
Si (0,4C_{norm}(d_{1}) +
0,6C_{norm}(d_{2}) \leq 0,72) O (d_{1}
> 116) OR (d_{2} > 116), entonces
K_{SONORAS} = 0.
Por supuesto, otras muchas modificaciones y
variaciones son posibles. En vista de la anterior descripción
ilustrativa y detallada de realizaciones de esta invención y de los
dibujos asociados, dichas otras modificaciones y variaciones serán
ahora evidentes para los expertos en la técnica. Debe resultar
evidente que dichas otras variaciones pueden llevarse a cabo sin
apartarse del alcance de la presente invención definida en las
reivindicaciones adjuntas.
Claims (83)
1. Un procedimiento para la supresión de ruido
de una señal de voz, que comprende:
- \quad
- llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia; y
- \quad
- agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia,
- \quad
- caracterizado porque cuando se detecta actividad de voz sonora en la señal de voz se lleva a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y se lleva a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.
\vskip1.000000\baselineskip
2. Un procedimiento según la reivindicación 1,
en el que el primer número de bandas de frecuencia se determina
según el número de bandas de frecuencia que son sonoras.
3. Un procedimiento según la reivindicación 1,
en el que el primer número de bandas de frecuencia se determina con
respecto a una frecuencia de corte de sonoridad, que es una
frecuencia por debajo de la cual la señal de voz se considera
sonora.
4. Un procedimiento según la reivindicación 3,
en el que el primer número de bandas de frecuencia incluye todas
las bandas de frecuencia de la señal de voz que presentan una
frecuencia superior que no sobrepasa la frecuencia de corte de
sonoridad.
5. Un procedimiento según la reivindicación 1,
en el que el primer número de bandas de frecuencia es un número
fijo predeterminado.
6. Un procedimiento según la reivindicación 1,
en el que si ninguna banda de frecuencia de la señal de voz es
sonora, la supresión de ruido se lleva a cabo por cada banda de
frecuencia para todas las bandas de frecuencia.
7. Un procedimiento según la reivindicación 1,
en el que la señal de voz comprende tramas de voz que comprenden
una pluralidad de muestras y el procedimiento de la reivindicación 1
se aplica para suprimir ruido en una trama de voz.
8. Un procedimiento según la reivindicación 7,
que comprende llevar a cabo el análisis de frecuencia utilizando
una ventana de análisis que está desfasada en m muestras con
respecto a una primera muestra de la trama de voz.
9. Un procedimiento según la reivindicación 7,
que comprende llevar a cabo un primer análisis de frecuencia
utilizando una primera ventana de análisis que está desfasada en m
muestras con respecto a una primera muestra de la trama de voz y
una segunda ventana de análisis de frecuencia que está desfasada en
p muestras con respecto a la primera muestra de la trama de
voz.
10. Un procedimiento según la reivindicación 9,
en el que m = 24 y p = 128.
11. Un procedimiento según la reivindicación 9,
en el que la segunda ventana de análisis comprende una parte de
anticipación que se extiende desde dicha trama de voz hasta una
trama de voz posterior de la señal de voz.
12. Un procedimiento según la reivindicación 1,
que comprende llevar a cabo una supresión de ruido aplicando una
ganancia de escalado a los contenedores y/o a las bandas de
frecuencia.
13. Un procedimiento según la reivindicación 1,
en el que cuando se lleva a cabo una supresión de ruido por cada
contenedor de frecuencia, el procedimiento comprende además
determinar una ganancia de escalado específica de contenedor de
frecuencia para un contenedor de frecuencia.
14. Un procedimiento según la reivindicación 1,
en el que cuando se lleva a cabo una supresión de ruido por cada
banda de frecuencia, el procedimiento comprende además determinar
una ganancia de escalado específica de banda de frecuencia para una
banda de frecuencia.
15. Un procedimiento según la reivindicación 6,
que comprende llevar a cabo una supresión de ruido aplicando una
ganancia de escalado constante para todas las bandas de
frecuencia.
16. Un procedimiento según la reivindicación 13,
que comprende determinar un valor para la ganancia de escalado
específica de contenedor de frecuencia para un contenedor de
frecuencia con referencia a una relación señal a ruido (SNR)
determinada para el contenedor de frecuencia.
\newpage
17. Un procedimiento según la reivindicación 14,
que comprende determinar un valor para la ganancia de escalado
específica de banda de frecuencia para una banda de frecuencia con
referencia a una relación señal a ruido (SNR) determinada para la
banda de frecuencia.
18. Un procedimiento según la reivindicación 16,
que comprende llevar a cabo las etapas de la reivindicación 16 para
cada uno del primer y del segundo análisis de frecuencia.
19. Un procedimiento según la reivindicación 17,
que comprende llevar a cabo las etapas de la reivindicación 17 para
cada uno del primer y del segundo análisis de frecuencia.
20. Un procedimiento según una cualquiera de las
reivindicaciones 12, 13 ó 14, en el que la ganancia de escalado es
una ganancia de escalado alisada.
21. Un procedimiento según una cualquiera de las
reivindicaciones 12, 13 ó 14, que comprende calcular una ganancia
de escalado alisada que ha de aplicarse a un contenedor de
frecuencia particular o a una banda de frecuencia particular
utilizando un factor de alisado que presenta un valor que está
relacionado de manera inversa con la ganancia de escalado para el
contendor de frecuencia particular o banda particular.
22. Un procedimiento según una cualquiera de las
reivindicaciones 12, 13 ó 14, que comprende calcular una ganancia
de escalado alisada que ha de aplicarse a un contenedor de
frecuencia particular o a una banda de frecuencia particular
utilizando un factor de alisado que presenta un valor determinado de
manera que el alisado sea más fuerte para valores más pequeños de
la ganancia de escalado.
23. Un procedimiento según la reivindicación 13
ó 14, en el que determinar el valor de la ganancia de escalado se
produce n veces por trama de voz, donde n es mayor que uno.
24. Un procedimiento según la reivindicación 23,
donde n = 2.
25. Un procedimiento según la reivindicación 13
ó 14, que comprende determinar el valor de la ganancia de escalado
n veces por trama de voz, donde n es mayor que uno, y donde la
frecuencia de corte de sonoridad es al menos parcialmente una
función de la señal de voz en una trama de voz anterior.
26. Un procedimiento según la reivindicación 13,
en el que la supresión de ruido por cada contenedor de frecuencia
se lleva a cabo en un máximo de 74 contenedores correspondientes a
17 bandas.
27. Un procedimiento según la reivindicación 13,
en el que la supresión de ruido por cada contenedor de frecuencia
se lleva a cabo en un número máximo de contenedores de frecuencia
correspondientes a una frecuencia de 3700 Hz.
28. Un procedimiento según la reivindicación 16,
en el que para un primer valor SNR, el valor de la ganancia de
escalado se fija a un valor mínimo, y para un segundo valor SNR
mayor que el primer valor SNR, el valor de la ganancia de escalado
se fija a la unidad.
29. Un procedimiento según la reivindicación 28,
en el que el primer valor SNR es igual a 1 dB aproximadamente, y
donde el segundo valor SNR es de 45 dB aproximadamente.
30. Un procedimiento según la reivindicación 20,
que comprende además detectar secciones de la señal de voz que no
contienen voz activa.
31. Un procedimiento según la reivindicación 30,
que comprende además reajustar la ganancia de escalado alisada a un
valor mínimo como respuesta a la detección de una sección de la
señal de voz que no contiene voz activa.
32. Un procedimiento según la reivindicación 7,
en el que la supresión de ruido no se lleva a cabo cuando una
energía de ruido máxima en una pluralidad de bandas de frecuencia
está por debajo de un valor umbral.
33. Un procedimiento según la reivindicación 7,
que comprende además, como respuesta a un caso de una trama de voz
de mantenimiento corto, llevar a cabo la supresión de ruido
aplicando una ganancia de escalado determinada por cada banda de
frecuencia para x primeras bandas de frecuencia y, para las bandas
de frecuencia restantes, llevar a cabo la supresión de ruido
aplicando un único valor de ganancia de escalado.
34. Un procedimiento según la reivindicación 33,
en el que las x primeras bandas de frecuencia corresponden a una
frecuencia de hasta 1700 Hz.
35. Un procedimiento según la reivindicación 20,
en el que para una señal de voz de banda estrecha, el procedimiento
comprende además llevar a cabo la supresión de ruido aplicando
ganancias de escalado alisadas determinadas por cada banda de
frecuencia a x primeras bandas de frecuencia correspondientes a una
frecuencia de hasta 3700 Hz, llevar a cabo la supresión de ruido
aplicando el valor de la ganancia de escalado en el contenedor de
frecuencia correspondiente a 3700 Hz a contenedores de frecuencia
entre 3700 Hz y 4000 Hz, y ajustar a cero las bandas de frecuencia
restantes del espectro de frecuencia de la señal de voz.
36. Un procedimiento según la reivindicación 35,
en el que la señal de voz de banda estrecha es una señal que se
muestrea de manera ascendente hasta 12800 Hz.
37. Un procedimiento según la reivindicación 3,
que comprende además determinar la frecuencia de corte de sonoridad
utilizando una medida de sonoridad calculada.
38. Un procedimiento según la reivindicación 37,
que comprende además determinar una pluralidad de bandas críticas
que presentan una frecuencia superior que no sobrepasa la frecuencia
de corte de sonoridad, donde los límites se establecen de manera
que la supresión de ruido por cada contenedor de frecuencia se lleva
a cabo en un mínimo de x bandas y en un máximo de y
bandas.
39. Un procedimiento según la reivindicación 38,
donde x = 3 y donde y = 17.
40. Un procedimiento según la reivindicación 37,
donde la frecuencia de corte de sonoridad está delimitada de manera
que sea igual o mayor que 325 Hz e igual o menor que 3700 Hz.
41. Un dispositivo para suprimir ruido en una
señal de voz, estando dispuesto el dispositivo para:
- \quad
- llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia; y
- \quad
- agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia,
- \quad
- caracterizado porque el dispositivo está dispuesto para detectar actividad de voz sonora y cuando se detecta actividad de voz sonora en la señal de voz, para llevar a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y para llevar a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.
\vskip1.000000\baselineskip
42. Un dispositivo según la reivindicación 41,
en el que el primer número de bandas de frecuencia se determina
según el número de bandas de frecuencia que son sonoras.
43. Un dispositivo según la reivindicación 41,
en el que el dispositivo está dispuesto para determinar el primer
número de bandas de frecuencia con respecto a una frecuencia de
corte de sonoridad, que es una frecuencia por debajo de la cual la
señal de voz se considera sonora.
44. Un dispositivo según la reivindicación 43,
en el que el primer número de bandas de frecuencia incluye todas
las bandas de frecuencia de la señal de voz que presentan una
frecuencia superior que no sobrepasa la frecuencia de corte de
sonoridad.
45. Un dispositivo según la reivindicación 41,
en el que el primer número de bandas de frecuencia es un número fijo
predeterminado.
46. Un dispositivo según la reivindicación 41,
estando el dispositivo dispuesto para llevar a cabo una supresión
de ruido por cada banda de frecuencia para todas las bandas de
frecuencia cuando ninguna banda de frecuencia de la señal de voz es
sonora.
47. Un dispositivo según la reivindicación 41,
en el que la señal de voz comprende tramas de voz que comprenden
una pluralidad de muestras y el dispositivo está dispuesto para
suprimir ruido en una trama de voz.
48. Un dispositivo según la reivindicación 47,
en el que el dispositivo está dispuesto para llevar a cabo dicho
análisis de frecuencia utilizando una ventana de análisis que está
desfasada en m muestras con respecto a una primera muestra de la
trama de voz.
49. Un dispositivo según la reivindicación 47,
en el que el dispositivo está dispuesto para llevar a cabo un
primer análisis de frecuencia utilizando una primera ventana de
análisis que está desfasada en m muestras con respecto a una
primera muestra de la trama de voz y una segunda ventana de análisis
de frecuencia que está desfasada en p muestras con respecto a la
primera muestra de la trama de voz.
50. Un dispositivo según la reivindicación 49,
en el que m = 24 y p = 128.
51. Un dispositivo según la reivindicación 49,
en el que la segunda ventana de análisis comprende una parte de
anticipación que se extiende desde dicha trama de voz hasta una
trama de voz posterior de la señal de voz.
52. Un dispositivo según la reivindicación 41,
estando el dispositivo dispuesto para llevar a cabo una supresión
de ruido aplicando una ganancia de escalado a los contenedores y/o a
las bandas de frecuencia.
\newpage
53. Un dispositivo según la reivindicación 41,
en el que cuando el dispositivo está dispuesto para llevar a cabo
una supresión de ruido por cada contenedor de frecuencia, está
dispuesto además para determinar una ganancia de escalado
específica de contenedor de frecuencia para un contenedor de
frecuencia.
54. Un dispositivo según la reivindicación 41,
en el que cuando el dispositivo está dispuesto para llevar a cabo
una supresión de ruido por cada banda de frecuencia, está dispuesto
además para determinar una ganancia de escalado específica de banda
de frecuencia para una banda de frecuencia.
55. Un dispositivo según la reivindicación 46,
estando el dispositivo dispuesto para llevar a cabo una supresión
de ruido aplicando una ganancia de escalado constante para todas las
bandas de frecuencia.
56. Un dispositivo según la reivindicación 53,
estando el dispositivo dispuesto para determinar un valor para la
ganancia de escalado específica de contenedor de frecuencia para un
contenedor de frecuencia con referencia a una relación señal a
ruido (SNR) determinada para el contenedor de frecuencia.
57. Un dispositivo según la reivindicación 54,
estando el dispositivo dispuesto para determinar un valor para la
ganancia de escalado específica de banda de frecuencia para una
banda de frecuencia con referencia a una relación señal a ruido
(SNR) determinada para la banda de frecuencia.
58. Un dispositivo según la reivindicación 56,
estando el dispositivo dispuesto para llevar a cabo las etapas de
la reivindicación 56 para cada uno del primer y del segundo análisis
de frecuencia.
59. Un dispositivo según la reivindicación 57,
estando el dispositivo dispuesto para llevar a cabo las etapas de
la reivindicación 57 para cada uno del primer y del segundo análisis
de frecuencia.
60. Un dispositivo según una cualquiera de las
reivindicaciones 52, 53 ó 54, en el que la ganancia de escalado es
una ganancia de escalado alisada.
61. Un dispositivo según una cualquiera de las
reivindicaciones 52, 53 ó 54, estando el dispositivo dispuesto para
calcular una ganancia de escalado alisada que ha de aplicarse a un
contenedor de frecuencia particular o a una banda de frecuencia
particular utilizando un factor de alisado que presenta un valor que
está relacionado de manera inversa con la ganancia de escalado para
el contenedor de frecuencia particular o banda particular.
62. Un dispositivo según una cualquiera de las
reivindicaciones 52, 53 ó 54, estando el dispositivo dispuesto para
calcular una ganancia de escalado alisada que ha de aplicarse a un
contenedor de frecuencia particular o a una banda de frecuencia
particular utilizando un factor de alisado que presenta un valor
determinado de manera que el alisado sea más fuerte para valores
más pequeños de la ganancia de escalado.
63. Un dispositivo según la reivindicación 53 ó
54, estando el dispositivo dispuesto para determinar el valor de la
ganancia de escalado n veces por trama de voz, donde n es mayor que
uno.
64. Un dispositivo según la reivindicación 63,
donde n = 2.
65. Un dispositivo según la reivindicación 53 ó
54, estando el dispositivo dispuesto para determinar el valor de la
ganancia de escalado n veces por trama de voz, donde n es mayor que
uno, y donde la frecuencia de corte de sonoridad es al menos
parcialmente una función de la señal de voz en una trama de voz
anterior.
66. Un dispositivo según la reivindicación 53,
en el que el dispositivo está dispuesto para llevar a cabo una
supresión de ruido por cada contenedor de frecuencia en un máximo de
74 contenedores correspondientes a 17 bandas.
67. Un dispositivo según la reivindicación 53,
estando el dispositivo dispuesto para llevar a cabo una supresión
de ruido por cada contenedor de frecuencia en un número máximo de
contenedores de frecuencia correspondientes a una frecuencia de
3700 Hz.
68. Un dispositivo según la reivindicación 56,
estando el dispositivo dispuesto para fijar el valor de la ganancia
de escalado a un valor mínimo para un primer valor SNR, y para fijar
el valor de la ganancia de escalado a la unidad para un segundo
valor SNR mayor que el primer valor SNR.
69. Un dispositivo según la reivindicación 68,
en el que el primer valor SNR es igual a 1 dB aproximadamente, y
donde el segundo valor SNR es de 45 dB aproximadamente.
70. Un dispositivo según la reivindicación 60,
estando el dispositivo dispuesto para detectar secciones de la
señal de voz que no contienen voz activa.
71. Un dispositivo según la reivindicación 70,
estando el dispositivo dispuesto para reajustar la ganancia de
escalado alisada a un valor mínimo como respuesta a la detección de
una sección de la señal de voz que no contiene voz activa.
72. Un dispositivo según la reivindicación 47,
estando el dispositivo dispuesto para no llevar a cabo la supresión
de ruido cuando una energía de ruido máxima en una pluralidad de
bandas de frecuencia está por debajo de un valor umbral.
73. Un dispositivo según la reivindicación 47,
en el que, como respuesta a un caso de una trama de voz de
mantenimiento corto, el dispositivo está dispuesto para llevar a
cabo una supresión de ruido aplicando una ganancia de escalado
determinada por cada banda de frecuencia para x primeras bandas de
frecuencia y para llevar a cabo una supresión de ruido aplicando un
único valor de ganancia de escalado para las bandas de frecuencia
restantes.
74. Un dispositivo según la reivindicación 73,
en el que las x primeras bandas de frecuencia corresponden a una
frecuencia de hasta 1700 Hz.
75. Un dispositivo según la reivindicación 60,
en el que para una señal de voz de banda estrecha, el dispositivo
está dispuesto para llevar a cabo una supresión de ruido aplicando
ganancias de escalado alisadas determinadas por cada banda de
frecuencia a x primeras bandas de frecuencia correspondientes a una
frecuencia de hasta 3700 Hz, para llevar a cabo una supresión de
ruido aplicando el valor de la ganancia de escalado en el contenedor
de frecuencia correspondiente a 3700 Hz a contenedores de
frecuencia entre 3700 Hz y 4000 Hz, y para ajustar a cero las
bandas de frecuencia restantes del espectro de frecuencia de la
señal de voz.
76. Un dispositivo según la reivindicación 75,
en el que la señal de voz de banda estrecha es una señal que se
muestrea de manera ascendente hasta 12800 Hz.
77. Un dispositivo según la reivindicación 43,
estando el dispositivo dispuesto para determinar la frecuencia de
corte de sonoridad utilizando una medida de sonoridad calculada.
78. Un dispositivo según la reivindicación 77,
en el que el dispositivo está dispuesto para determinar una
pluralidad de bandas críticas que presentan una frecuencia superior
que no sobrepasa la frecuencia de corte de sonoridad, donde los
límites están establecidos de manera que la supresión de ruido por
cada contenedor de frecuencia se lleva a cabo en un mínimo de
x bandas y en un máximo de y bandas.
79. Un dispositivo según la reivindicación 78,
en el que x = 3 y donde y = 17.
80. Un dispositivo según la reivindicación 77,
donde la frecuencia de corte de sonoridad está delimitada de manera
que sea igual o mayor que 325 Hz e igual o menor que 3700 Hz.
81. Un codificador de voz que comprende un
dispositivo para la supresión de ruido según la reivindicación
41.
82. Un sistema automático de reconocimiento de
voz que comprende un dispositivo para la supresión de ruido según
la reivindicación 41.
83. Un teléfono móvil que comprende un
dispositivo para la supresión de ruido según la reivindicación
41.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CA002454296A CA2454296A1 (en) | 2003-12-29 | 2003-12-29 | Method and device for speech enhancement in the presence of background noise |
CA2454296 | 2003-12-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2329046T3 true ES2329046T3 (es) | 2009-11-20 |
Family
ID=34683070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES04802378T Active ES2329046T3 (es) | 2003-12-29 | 2004-12-29 | Procedimiento y dispositivo para la mejora de voz en presencia de ruido de fondo. |
Country Status (19)
Country | Link |
---|---|
US (1) | US8577675B2 (es) |
EP (1) | EP1700294B1 (es) |
JP (1) | JP4440937B2 (es) |
KR (1) | KR100870502B1 (es) |
CN (1) | CN100510672C (es) |
AT (1) | ATE441177T1 (es) |
AU (1) | AU2004309431C1 (es) |
BR (1) | BRPI0418449A (es) |
CA (2) | CA2454296A1 (es) |
DE (1) | DE602004022862D1 (es) |
ES (1) | ES2329046T3 (es) |
HK (1) | HK1099946A1 (es) |
MX (1) | MXPA06007234A (es) |
MY (1) | MY141447A (es) |
PT (1) | PT1700294E (es) |
RU (1) | RU2329550C2 (es) |
TW (1) | TWI279776B (es) |
WO (1) | WO2005064595A1 (es) |
ZA (1) | ZA200606215B (es) |
Families Citing this family (92)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7113580B1 (en) * | 2004-02-17 | 2006-09-26 | Excel Switching Corporation | Method and apparatus for performing conferencing services and echo suppression |
US8438026B2 (en) * | 2004-02-18 | 2013-05-07 | Nuance Communications, Inc. | Method and system for generating training data for an automatic speech recognizer |
DE102004049347A1 (de) * | 2004-10-08 | 2006-04-20 | Micronas Gmbh | Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale |
SG161223A1 (en) | 2005-04-01 | 2010-05-27 | Qualcomm Inc | Method and apparatus for vector quantizing of a spectral envelope representation |
ES2705589T3 (es) * | 2005-04-22 | 2019-03-26 | Qualcomm Inc | Sistemas, procedimientos y aparatos para el suavizado del factor de ganancia |
JP4765461B2 (ja) * | 2005-07-27 | 2011-09-07 | 日本電気株式会社 | 雑音抑圧システムと方法及びプログラム |
US7366658B2 (en) * | 2005-12-09 | 2008-04-29 | Texas Instruments Incorporated | Noise pre-processor for enhanced variable rate speech codec |
US7930178B2 (en) * | 2005-12-23 | 2011-04-19 | Microsoft Corporation | Speech modeling and enhancement based on magnitude-normalized spectra |
US9185487B2 (en) * | 2006-01-30 | 2015-11-10 | Audience, Inc. | System and method for providing noise suppression utilizing null processing noise subtraction |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US7593535B2 (en) * | 2006-08-01 | 2009-09-22 | Dts, Inc. | Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer |
CN101246688B (zh) * | 2007-02-14 | 2011-01-12 | 华为技术有限公司 | 一种对背景噪声信号进行编解码的方法、系统和装置 |
WO2008106036A2 (en) | 2007-02-26 | 2008-09-04 | Dolby Laboratories Licensing Corporation | Speech enhancement in entertainment audio |
JP5186510B2 (ja) * | 2007-03-19 | 2013-04-17 | ドルビー ラボラトリーズ ライセンシング コーポレイション | スピーチ明瞭度強化方法と装置 |
CN101320559B (zh) * | 2007-06-07 | 2011-05-18 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
CA2690433C (en) * | 2007-06-22 | 2016-01-19 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
ATE514163T1 (de) * | 2007-09-12 | 2011-07-15 | Dolby Lab Licensing Corp | Spracherweiterung |
JPWO2009051132A1 (ja) * | 2007-10-19 | 2011-03-03 | 日本電気株式会社 | 信号処理システムと、その装置、方法及びそのプログラム |
US8688441B2 (en) * | 2007-11-29 | 2014-04-01 | Motorola Mobility Llc | Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content |
US8554551B2 (en) | 2008-01-28 | 2013-10-08 | Qualcomm Incorporated | Systems, methods, and apparatus for context replacement by audio level |
US8433582B2 (en) * | 2008-02-01 | 2013-04-30 | Motorola Mobility Llc | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US20090201983A1 (en) * | 2008-02-07 | 2009-08-13 | Motorola, Inc. | Method and apparatus for estimating high-band energy in a bandwidth extension system |
CA2715432C (en) | 2008-03-05 | 2016-08-16 | Voiceage Corporation | System and method for enhancing a decoded tonal sound signal |
CN101483042B (zh) * | 2008-03-20 | 2011-03-30 | 华为技术有限公司 | 一种噪声生成方法以及噪声生成装置 |
US8606573B2 (en) * | 2008-03-28 | 2013-12-10 | Alon Konchitsky | Voice recognition improved accuracy in mobile environments |
KR101317813B1 (ko) * | 2008-03-31 | 2013-10-15 | (주)트란소노 | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 |
US9142221B2 (en) * | 2008-04-07 | 2015-09-22 | Cambridge Silicon Radio Limited | Noise reduction |
US8515097B2 (en) * | 2008-07-25 | 2013-08-20 | Broadcom Corporation | Single microphone wind noise suppression |
US9253568B2 (en) * | 2008-07-25 | 2016-02-02 | Broadcom Corporation | Single-microphone wind noise suppression |
US8463412B2 (en) * | 2008-08-21 | 2013-06-11 | Motorola Mobility Llc | Method and apparatus to facilitate determining signal bounding frequencies |
US8798776B2 (en) | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
US8463599B2 (en) * | 2009-02-04 | 2013-06-11 | Motorola Mobility Llc | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
EP2416315B1 (en) * | 2009-04-02 | 2015-05-20 | Mitsubishi Electric Corporation | Noise suppression device |
BR112012000273A8 (pt) * | 2009-07-07 | 2017-10-24 | Koninl Philips Electronics Nv | método de processamento de sinais respiratórios, sistema de processamento de sinais respiratórios, programa de computador ou produto de programa de computador para realizar o método e transportador de dados |
WO2011049515A1 (en) * | 2009-10-19 | 2011-04-28 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and voice activity detector for a speech encoder |
AU2010308597B2 (en) * | 2009-10-19 | 2015-10-01 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and background estimator for voice activity detection |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
BR122019025154B1 (pt) * | 2010-01-19 | 2021-04-13 | Dolby International Ab | Sistema e método para gerar um sinal transposto de frequência e/ou estendido no tempo a partir de um sinal de áudio de entrada e meio de armazenamento |
MX2012010350A (es) * | 2010-03-09 | 2012-10-05 | Fraunhofer Ges Forschung | Aparato y metodo para manejar episodios de sonido de transitorios en señales de audio al cambiar el tono o velocidad de repeticion. |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
KR101173980B1 (ko) * | 2010-10-18 | 2012-08-16 | (주)트란소노 | 음성통신 기반 잡음 제거 시스템 및 그 방법 |
KR101176207B1 (ko) * | 2010-10-18 | 2012-08-28 | (주)트란소노 | 음성통신 시스템 및 음성통신 방법 |
US8831937B2 (en) * | 2010-11-12 | 2014-09-09 | Audience, Inc. | Post-noise suppression processing to improve voice quality |
EP2458586A1 (en) * | 2010-11-24 | 2012-05-30 | Koninklijke Philips Electronics N.V. | System and method for producing an audio signal |
ES2489472T3 (es) | 2010-12-24 | 2014-09-02 | Huawei Technologies Co., Ltd. | Método y aparato para una detección adaptativa de la actividad vocal en una señal de audio de entrada |
KR20120080409A (ko) * | 2011-01-07 | 2012-07-17 | 삼성전자주식회사 | 잡음 구간 판별에 의한 잡음 추정 장치 및 방법 |
EP2663903A1 (de) * | 2011-01-11 | 2013-11-20 | Siemens Aktiengesellschaft | Verfahren und vorrichtung zur filterung eines signals und regeleinrichtung für einen prozess |
US8650029B2 (en) * | 2011-02-25 | 2014-02-11 | Microsoft Corporation | Leveraging speech recognizer feedback for voice activity detection |
US20140114653A1 (en) * | 2011-05-06 | 2014-04-24 | Nokia Corporation | Pitch estimator |
TWI459381B (zh) | 2011-09-14 | 2014-11-01 | Ind Tech Res Inst | 語音增強方法 |
US9173025B2 (en) | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
US8712076B2 (en) | 2012-02-08 | 2014-04-29 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
ES2568640T3 (es) | 2012-02-23 | 2016-05-03 | Dolby International Ab | Procedimientos y sistemas para recuperar de manera eficiente contenido de audio de alta frecuencia |
CN103325380B (zh) | 2012-03-23 | 2017-09-12 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
CN104160443B (zh) | 2012-11-20 | 2016-11-16 | 统一有限责任两合公司 | 用于音频数据处理的方法、设备和系统 |
CN103886867B (zh) * | 2012-12-21 | 2017-06-27 | 华为技术有限公司 | 一种噪声抑制装置及其方法 |
CA2948015C (en) | 2012-12-21 | 2018-03-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Comfort noise addition for modeling background noise at low bit-rates |
US9495951B2 (en) * | 2013-01-17 | 2016-11-15 | Nvidia Corporation | Real time audio echo and background noise reduction for a mobile device |
CN110223704B (zh) * | 2013-01-29 | 2023-09-15 | 弗劳恩霍夫应用研究促进协会 | 对音频信号的频谱执行噪声填充的装置 |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
JP6303340B2 (ja) | 2013-08-30 | 2018-04-04 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
KR20150032390A (ko) * | 2013-09-16 | 2015-03-26 | 삼성전자주식회사 | 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법 |
DE102013111784B4 (de) | 2013-10-25 | 2019-11-14 | Intel IP Corporation | Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren |
US9449615B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Externally estimated SNR based modifiers for internal MMSE calculators |
US9449610B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Speech probability presence modifier improving log-MMSE based noise suppression performance |
US9449609B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Accurate forward SNR estimation based on MMSE speech probability presence |
CN104681034A (zh) | 2013-11-27 | 2015-06-03 | 杜比实验室特许公司 | 音频信号处理 |
GB2523984B (en) | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
CN107086043B (zh) | 2014-03-12 | 2020-09-08 | 华为技术有限公司 | 检测音频信号的方法和装置 |
US10176823B2 (en) * | 2014-05-09 | 2019-01-08 | Apple Inc. | System and method for audio noise processing and noise reduction |
KR20160000680A (ko) * | 2014-06-25 | 2016-01-05 | 주식회사 더바인코퍼레이션 | 광대역 보코더용 휴대폰 명료도 향상장치와 이를 이용한 음성출력장치 |
JP6208377B2 (ja) | 2014-07-29 | 2017-10-04 | テレフオンアクチーボラゲット エルエム エリクソン(パブル) | オーディオ信号における背景雑音の推定 |
WO2016033364A1 (en) | 2014-08-28 | 2016-03-03 | Audience, Inc. | Multi-sourced noise suppression |
US9978388B2 (en) | 2014-09-12 | 2018-05-22 | Knowles Electronics, Llc | Systems and methods for restoration of speech components |
US9947318B2 (en) * | 2014-10-03 | 2018-04-17 | 2236008 Ontario Inc. | System and method for processing an audio signal captured from a microphone |
US9886966B2 (en) * | 2014-11-07 | 2018-02-06 | Apple Inc. | System and method for improving noise suppression using logistic function and a suppression target value for automatic speech recognition |
TWI569263B (zh) * | 2015-04-30 | 2017-02-01 | 智原科技股份有限公司 | 聲頻訊號的訊號擷取方法與裝置 |
KR102015742B1 (ko) * | 2015-12-01 | 2019-08-28 | 미쓰비시덴키 가부시키가이샤 | 음성 인식 장치, 음성 강조 장치, 음성 인식 방법, 음성 강조 방법 및 네비게이션 시스템 |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
CN108022595A (zh) * | 2016-10-28 | 2018-05-11 | 电信科学技术研究院 | 一种语音信号降噪方法和用户终端 |
CN106782504B (zh) * | 2016-12-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN111183476B (zh) * | 2017-10-06 | 2024-03-22 | 索尼欧洲有限公司 | 基于子窗口序列内的rms功率的音频文件包络 |
US10771621B2 (en) * | 2017-10-31 | 2020-09-08 | Cisco Technology, Inc. | Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications |
RU2701120C1 (ru) * | 2018-05-14 | 2019-09-24 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" | Устройство для обработки речевого сигнала |
US10681458B2 (en) * | 2018-06-11 | 2020-06-09 | Cirrus Logic, Inc. | Techniques for howling detection |
KR102327441B1 (ko) * | 2019-09-20 | 2021-11-17 | 엘지전자 주식회사 | 인공지능 장치 |
US11217262B2 (en) * | 2019-11-18 | 2022-01-04 | Google Llc | Adaptive energy limiting for transient noise suppression |
US11264015B2 (en) | 2019-11-21 | 2022-03-01 | Bose Corporation | Variable-time smoothing for steady state noise estimation |
US11374663B2 (en) * | 2019-11-21 | 2022-06-28 | Bose Corporation | Variable-frequency smoothing |
CN111429932A (zh) * | 2020-06-10 | 2020-07-17 | 浙江远传信息技术股份有限公司 | 语音降噪方法、装置、设备及介质 |
CN112634929B (zh) * | 2020-12-16 | 2024-07-23 | 普联国际有限公司 | 一种语音增强方法、装置及存储介质 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57161800A (en) * | 1981-03-30 | 1982-10-05 | Toshiyuki Sakai | Voice information filter |
AU633673B2 (en) * | 1990-01-18 | 1993-02-04 | Matsushita Electric Industrial Co., Ltd. | Signal processing device |
US5432859A (en) * | 1993-02-23 | 1995-07-11 | Novatel Communications Ltd. | Noise-reduction system |
JP3297307B2 (ja) * | 1996-06-14 | 2002-07-02 | 沖電気工業株式会社 | 背景雑音消去装置 |
US6098038A (en) * | 1996-09-27 | 2000-08-01 | Oregon Graduate Institute Of Science & Technology | Method and system for adaptive speech enhancement using frequency specific signal-to-noise ratio estimates |
US6097820A (en) * | 1996-12-23 | 2000-08-01 | Lucent Technologies Inc. | System and method for suppressing noise in digitally represented voice signals |
US6456965B1 (en) * | 1997-05-20 | 2002-09-24 | Texas Instruments Incorporated | Multi-stage pitch and mixed voicing estimation for harmonic speech coders |
US6044341A (en) * | 1997-07-16 | 2000-03-28 | Olympus Optical Co., Ltd. | Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice |
US20020002455A1 (en) * | 1998-01-09 | 2002-01-03 | At&T Corporation | Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system |
US6088668A (en) * | 1998-06-22 | 2000-07-11 | D.S.P.C. Technologies Ltd. | Noise suppressor having weighted gain smoothing |
US7209567B1 (en) * | 1998-07-09 | 2007-04-24 | Purdue Research Foundation | Communication system with adaptive noise suppression |
US6351731B1 (en) * | 1998-08-21 | 2002-02-26 | Polycom, Inc. | Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6233549B1 (en) * | 1998-11-23 | 2001-05-15 | Qualcomm, Inc. | Low frequency spectral enhancement system and method |
US6363345B1 (en) * | 1999-02-18 | 2002-03-26 | Andrea Electronics Corporation | System, method and apparatus for cancelling noise |
US6618701B2 (en) * | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
JP4242516B2 (ja) | 1999-07-26 | 2009-03-25 | パナソニック株式会社 | サブバンド符号化方式 |
FI116643B (fi) * | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
US6366880B1 (en) * | 1999-11-30 | 2002-04-02 | Motorola, Inc. | Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies |
US6704711B2 (en) * | 2000-01-28 | 2004-03-09 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for modifying speech signals |
US7058572B1 (en) * | 2000-01-28 | 2006-06-06 | Nortel Networks Limited | Reducing acoustic noise in wireless and landline based telephony |
US6898566B1 (en) * | 2000-08-16 | 2005-05-24 | Mindspeed Technologies, Inc. | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal |
US6862567B1 (en) * | 2000-08-30 | 2005-03-01 | Mindspeed Technologies, Inc. | Noise suppression in the frequency domain by adjusting gain according to voicing parameters |
JP2002149200A (ja) * | 2000-08-31 | 2002-05-24 | Matsushita Electric Ind Co Ltd | 音声処理装置及び音声処理方法 |
US6947888B1 (en) * | 2000-10-17 | 2005-09-20 | Qualcomm Incorporated | Method and apparatus for high performance low bit-rate coding of unvoiced speech |
US6925435B1 (en) | 2000-11-27 | 2005-08-02 | Mindspeed Technologies, Inc. | Method and apparatus for improved noise reduction in a speech encoder |
JP4282227B2 (ja) * | 2000-12-28 | 2009-06-17 | 日本電気株式会社 | ノイズ除去の方法及び装置 |
US7155385B2 (en) * | 2002-05-16 | 2006-12-26 | Comerica Bank, As Administrative Agent | Automatic gain control for adjusting gain during non-speech portions |
US7492889B2 (en) * | 2004-04-23 | 2009-02-17 | Acoustic Technologies, Inc. | Noise suppression based on bark band wiener filtering and modified doblinger noise estimate |
-
2003
- 2003-12-29 CA CA002454296A patent/CA2454296A1/en not_active Abandoned
-
2004
- 2004-12-22 US US11/021,938 patent/US8577675B2/en active Active
- 2004-12-27 MY MYPI20045377A patent/MY141447A/en unknown
- 2004-12-27 TW TW093140706A patent/TWI279776B/zh active
- 2004-12-29 CA CA2550905A patent/CA2550905C/en active Active
- 2004-12-29 AT AT04802378T patent/ATE441177T1/de not_active IP Right Cessation
- 2004-12-29 AU AU2004309431A patent/AU2004309431C1/en active Active
- 2004-12-29 DE DE602004022862T patent/DE602004022862D1/de active Active
- 2004-12-29 WO PCT/CA2004/002203 patent/WO2005064595A1/en active Application Filing
- 2004-12-29 EP EP04802378A patent/EP1700294B1/en active Active
- 2004-12-29 CN CNB2004800417014A patent/CN100510672C/zh active Active
- 2004-12-29 BR BRPI0418449-1A patent/BRPI0418449A/pt not_active Application Discontinuation
- 2004-12-29 JP JP2006545874A patent/JP4440937B2/ja active Active
- 2004-12-29 RU RU2006126530/09A patent/RU2329550C2/ru active
- 2004-12-29 PT PT04802378T patent/PT1700294E/pt unknown
- 2004-12-29 MX MXPA06007234A patent/MXPA06007234A/es active IP Right Grant
- 2004-12-29 KR KR1020067015437A patent/KR100870502B1/ko active IP Right Grant
- 2004-12-29 ES ES04802378T patent/ES2329046T3/es active Active
-
2006
- 2006-07-27 ZA ZA200606215A patent/ZA200606215B/xx unknown
-
2007
- 2007-07-13 HK HK07107508.3A patent/HK1099946A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
EP1700294B1 (en) | 2009-08-26 |
AU2004309431C1 (en) | 2009-03-19 |
TW200531006A (en) | 2005-09-16 |
CN1918461A (zh) | 2007-02-21 |
JP4440937B2 (ja) | 2010-03-24 |
MY141447A (en) | 2010-04-30 |
US8577675B2 (en) | 2013-11-05 |
EP1700294A4 (en) | 2007-02-28 |
BRPI0418449A (pt) | 2007-05-22 |
KR100870502B1 (ko) | 2008-11-25 |
PT1700294E (pt) | 2009-09-28 |
CN100510672C (zh) | 2009-07-08 |
AU2004309431B2 (en) | 2008-10-02 |
CA2550905C (en) | 2010-12-14 |
AU2004309431A1 (en) | 2005-07-14 |
KR20060128983A (ko) | 2006-12-14 |
HK1099946A1 (en) | 2007-08-31 |
RU2329550C2 (ru) | 2008-07-20 |
RU2006126530A (ru) | 2008-02-10 |
JP2007517249A (ja) | 2007-06-28 |
TWI279776B (en) | 2007-04-21 |
DE602004022862D1 (de) | 2009-10-08 |
MXPA06007234A (es) | 2006-08-18 |
CA2454296A1 (en) | 2005-06-29 |
ZA200606215B (en) | 2007-11-28 |
EP1700294A1 (en) | 2006-09-13 |
US20050143989A1 (en) | 2005-06-30 |
WO2005064595A1 (en) | 2005-07-14 |
ATE441177T1 (de) | 2009-09-15 |
CA2550905A1 (en) | 2005-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2329046T3 (es) | Procedimiento y dispositivo para la mejora de voz en presencia de ruido de fondo. | |
ES2678415T3 (es) | Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica | |
JP2995737B2 (ja) | 改良されたノイズ抑圧システム | |
US6289309B1 (en) | Noise spectrum tracking for speech enhancement | |
ES2356503T3 (es) | Método y sistema para reducir los efectos de los artefactos que producen ruido. | |
US7912567B2 (en) | Noise suppressor | |
US6122610A (en) | Noise suppression for low bitrate speech coder | |
US6415253B1 (en) | Method and apparatus for enhancing noise-corrupted speech | |
US6453289B1 (en) | Method of noise reduction for speech codecs | |
US8731913B2 (en) | Scaled window overlap add for mixed signals | |
US20080033718A1 (en) | Classification-Based Frame Loss Concealment for Audio Signals | |
CN101939783A (zh) | 用于在带宽扩展系统中估计高频带能量的方法和装置 | |
US8326621B2 (en) | Repetitive transient noise removal | |
US20110125490A1 (en) | Noise suppressor and voice decoder | |
US10249322B2 (en) | Audio processing devices and audio processing methods | |
CA2990328A1 (en) | Voice activity modification frame acquiring method, and voice activity detection method and apparatus | |
JP3960834B2 (ja) | 音声強調装置及び音声強調方法 | |
US9349383B2 (en) | Audio bandwidth dependent noise suppression | |
CN111508512A (zh) | 语音信号中的摩擦音检测 | |
EP1635331A1 (en) | Method for estimating a signal to noise ratio | |
EP2760022B1 (en) | Audio bandwidth dependent noise suppression | |
Chessher | A Robust Noise Spectral Estimation Algorithm for Speech Enhancement in Voice Devices | |
Govindasamy | A psychoacoustically motivated speech enhancement system |