ES2329046T3 - Procedimiento y dispositivo para la mejora de voz en presencia de ruido de fondo. - Google Patents

Procedimiento y dispositivo para la mejora de voz en presencia de ruido de fondo. Download PDF

Info

Publication number
ES2329046T3
ES2329046T3 ES04802378T ES04802378T ES2329046T3 ES 2329046 T3 ES2329046 T3 ES 2329046T3 ES 04802378 T ES04802378 T ES 04802378T ES 04802378 T ES04802378 T ES 04802378T ES 2329046 T3 ES2329046 T3 ES 2329046T3
Authority
ES
Spain
Prior art keywords
frequency
voice
noise
bands
container
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES04802378T
Other languages
English (en)
Inventor
Milan Jelinek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of ES2329046T3 publication Critical patent/ES2329046T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Telephone Function (AREA)
  • Devices For Executing Special Programs (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

Un procedimiento para la supresión de ruido de una señal de voz, que comprende: llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia; y agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia, caracterizado porque cuando se detecta actividad de voz sonora en la señal de voz se lleva a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y se lleva a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.

Description

Procedimiento y dispositivo para la mejora de voz en presencia de ruido de fondo.
Campo de la invención
La presente invención se refiere a una técnica para perfeccionar las señales de voz y mejorar la comunicación en presencia de ruido de fondo. En particular, pero no exclusivamente, la presente invención se refiere al diseño de un sistema de reducción de ruido que reduce el nivel de ruido de fondo en la señal de voz.
\vskip1.000000\baselineskip
Antecedentes de la invención
La reducción del nivel de ruido de fondo es muy importante en muchos sistemas de comunicaciones. Por ejemplo, los teléfonos móviles se usan en muchos entornos en los que hay un alto nivel de ruido de fondo. Tales entornos incluyen los coches (en los que se utiliza cada vez más el sistema "manos libres"), o la calle, por lo que el sistema de comunicación necesita funcionar en presencia de altos niveles de ruido provocados por el coche o de ruido de la calle. En aplicaciones ofimáticas, tales como videoconferencia y aplicaciones de internet de manos libres, el sistema necesita hacer frente al ruido de la oficina de una manera eficaz. Otros tipos de ruidos ambientales también pueden experimentarse en la práctica. La reducción de ruido, también conocida como la supresión de ruido, o mejora de voz, se vuelve un elemento importante para estas aplicaciones, que con frecuencia necesitan funcionar a bajas relaciones señal a ruido (SNR, signal-to-noise ratio). La reducción de ruido también es importante en sistemas automáticos de reconocimiento de voz que se utilizan cada vez más en una variedad de entornos reales. La reducción de ruido mejora el rendimiento de los algoritmos de codificación de voz o de los algoritmos de reconocimiento de voz utilizados normalmente en las aplicaciones mencionadas anteriormente.
La sustracción espectral es una de las técnicas más utilizadas para la reducción de ruido (véase el documento "Suppression of acoustic noise in speech using spectral subtraction" por S. F. BolI, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-27, páginas 113 a 120, abril de 1979). La sustracción espectral trata de estimar la magnitud espectral de corta duración de la voz sustrayendo una estimación de ruido de la voz ruidosa. La fase de la voz ruidosa no se procesa, en base a la suposición de que el oído humano no percibe la distorsión de fase. En la práctica, la sustracción espectral se implementa formando una función de ganancia basada en la SNR a partir de las estimaciones del espectro de ruido y del espectro de voz ruidosa. Esta función de ganancia se multiplica por el espectro de entrada para suprimir las componentes de frecuencia con una SNR baja. La principal desventaja de utilizar algoritmos convencionales de sustracción espectral es el ruido residual musical resultante que consiste en "tonos musicales" que perturban al oyente así como a los algoritmos de procesamiento de señal posteriores (tales como la codificación de voz). Los tonos musicales se deben principalmente a la discrepancia en las estimaciones de espectro. Para resolver este problema se ha sugerido el alisado espectral, dando como resultado una resolución y una discrepancia reducidas. Otro procedimiento conocido para reducir los tonos musicales es utilizar un factor de sobresustracción en combinación con un umbral mínimo espectral (véase el documento "Enhancement of speech corrupted by acoustic noise", por M. Berouti, R. Schwartz, y J. Makhoul, en Proc. IEEE ICASSP, Washington, DC, abril de 1979, páginas 208 a 211). Este procedimiento tiene la desventaja de degradar la voz cuando los tonos musicales se reducen suficientemente. Otros enfoques son el filtrado de supresión de ruido de decisión flexible (véase el documento "Speech enhancement using a soft decision noise suppression filter" por R. J. McAulay y M. L. Malpass, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-28, páginas 137 a 145, abril de 1980) y la sustracción espectral no lineal (véase el documento "Experiments with a nonlinear spectral subtractor (NSS), hidden Markov models and projection, for robust recognition in cars", por P. Lockwood y J. Boudy, Speech Commun., vol. 11, páginas 215 a 228, junio de
1992).
Otro procedimiento conocido para reducir el ruido musical se describe en el documento de patente US-A1-2003/0023430.
\vskip1.000000\baselineskip
Resumen de la invención
En un aspecto de esta invención, según se reivindica en las reivindicaciones adjuntas, se proporciona un procedimiento para la supresión de ruido de una señal de voz, que comprende:
\quad
llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia (frequency bins); y
\quad
agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia,
\quad
caracterizado porque cuando se detecta actividad de voz sonora en la señal de voz, se lleva a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y se lleva a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.
\newpage
En otro aspecto de esta invención se proporciona un dispositivo para suprimir ruido en una señal de voz, estando dispuesto el dispositivo para:
\quad
llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia; y
\quad
agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia,
\quad
caracterizado porque el dispositivo está dispuesto para detectar actividad de voz sonora y cuando se detecta actividad de voz sonora en la señal de voz, para llevar a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y para llevar a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.
\vskip1.000000\baselineskip
En un aspecto adicional de esta invención se proporciona un codificador de voz que comprende un dispositivo para la supresión de ruido, estando dispuesto dicho dispositivo para:
\quad
llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia; y
\quad
agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia,
\quad
caracterizado porque el dispositivo está dispuesto para detectar actividad de voz sonora y cuando se detecta actividad de voz sonora en la señal de voz, para llevar a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y para llevar a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.
\vskip1.000000\baselineskip
En otro aspecto adicional de esta invención se proporciona un sistema automático de reconocimiento de voz que comprende un dispositivo para la supresión de ruido, estando dispuesto dicho dispositivo para:
\quad
llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia; y
\quad
agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia,
\quad
caracterizado porque el dispositivo está dispuesto para detectar actividad de voz sonora y cuando se detecta actividad de voz sonora en la señal de voz, para llevar a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y para llevar a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.
\vskip1.000000\baselineskip
En otro aspecto adicional de esta invención se proporciona un teléfono móvil que comprende un dispositivo para la supresión de ruido, estando dispuesto dicho dispositivo para:
\quad
llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia; y
\quad
agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia,
\quad
caracterizado porque el dispositivo está dispuesto para detectar actividad de voz sonora y cuando se detecta actividad de voz sonora en la señal de voz, para llevar a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y para llevar a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.
\vskip1.000000\baselineskip
Breve descripción de los dibujos
Los anteriores y otros objetos, ventajas y características de la presente invención se harán más evidentes tras la lectura de la siguiente descripción no limitativa de una realización ilustrativa de la misma, proporcionada a modo de ejemplo solamente con referencia a los dibujos adjuntos. En los dibujos adjuntos:
la figura 1 es un diagrama de bloques esquemático de un sistema de comunicación de voz que incluye reducción de ruido;
la figura 2 muestra una ilustración de una división en ventanas de un análisis espectral;
la figura 3 proporciona una visión global de una realización ilustrativa de un algoritmo de reducción de ruido; y
la figura 4 es un diagrama de bloques esquemático de una realización ilustrativa de una reducción de ruido específica de clase en la que el algoritmo de reducción depende de la naturaleza de la trama de voz que está procesándose.
Descripción detallada de las realizaciones ilustrativas
En la presente memoria descriptiva se describen técnicas eficaces para la reducción de ruido. Las técnicas se basan al menos en parte en dividir la amplitud del espectro en bandas críticas y calcular una función de ganancia basada en la SNR por banda crítica similar al enfoque utilizado en el códec de voz EVRC (véase la norma C.S0014-0 "Enhanced Variable Rate Codec (EVRC) Service Option for Wideband Spread Spectrum Communication Systems", de 3GPP2, Especificación Técnica de 3GPP2, diciembre de 1999). Por ejemplo, se describen características que utilizan diferentes técnicas de procesamiento basadas en la naturaleza de la trama de voz que está procesándose. En tramas sordas, se utiliza un procesamiento por banda en todo el espectro. En tramas en las que la sonoridad se detecta hasta una determinada frecuencia, se utiliza un procesamiento por contenedor en la parte inferior del espectro donde se detecta la sonoridad y se utiliza un procesamiento por banda en las bandas restantes. En el caso de tramas de ruido de fondo, se elimina un umbral mínimo de ruido constante utilizando la misma ganancia de escalado en todo el espectro. Además, se describe una técnica en la que el alisado de la ganancia de escalado en cada banda o contenedor de frecuencia se lleva a cabo utilizando un factor de alisado que está relacionado de manera inversa con la ganancia de escalado real (el alisado es más fuerte para ganancias más pequeñas). Este enfoque impide la distorsión en segmentos de voz con una SNR alta precedidos por tramas con una SNR baja, como es el caso de los ataques sonoros, por ejemplo.
Un aspecto no limitativo de esta invención proporciona procedimientos novedosos para la reducción de ruido en base a técnicas de sustracción espectral, por lo que el procedimiento de reducción de ruido depende de la naturaleza de la trama de voz que está procesándose. Por ejemplo, en tramas sonoras, el procesamiento puede llevarse a cabo por cada contenedor por debajo de una determinada frecuencia.
En una realización ilustrativa, la reducción de ruido se lleva a cabo en un sistema de codificación de voz para reducir el nivel de ruido de fondo en la señal de voz antes de codificarse. Las técnicas descritas pueden emplearse con señales de voz de banda estrecha muestreadas a 8000 muestras/s o con señales de voz de banda ancha muestreadas a 16000 muestras/s, o a cualquier otra frecuencia de muestreo. El codificador utilizado en esta realización ilustrativa se basa en un códec AMR-WB (véase el documento "Suppression of acoustic noise in speech using spectral subtraction" por S. F. Boll, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-27, páginas 113 a 120, abril de 1979), el cual utiliza una conversión de muestreo interna para convertir la frecuencia de muestreo de señal a 12800 muestras/s (funcionando a un ancho de banda de 6,4 kHz).
Por lo tanto, la técnica de reducción de ruido descrita en esta realización ilustrativa funciona en señales de banda estrecha o de banda ancha después de la conversión de muestreo a 12,8 kHz.
En el caso de entradas de banda ancha, la señal de entrada tiene que reducirse de 16 kHz a 12,8 kHz. La reducción se lleva a cabo en primer lugar muestreando de manera ascendente por 4 y filtrando después la salida a través de un filtro FIR de paso bajo que presenta una frecuencia de corte a 6,4 kHz. Después, la señal se muestrea de manera descendente por 5. El retardo de filtrado es de 15 muestras a una frecuencia de muestreo de 16 kHz.
En el caso de entradas de banda estrecha, la señal tiene que muestrearse de manera ascendente desde 8 kHz hasta 12,8 kHz. Esto se lleva a cabo en primer lugar muestreando de manera ascendente por 8 y filtrando después la salida a través de un filtro FIR de paso bajo que presenta una frecuencia de corte a 6,4 kHz. Después, la señal se muestrea de manera descendente por 5. El retardo de filtrado es de 8 muestras a una frecuencia de muestreo de 8 kHz.
Después de la conversión de muestreo, se aplican dos funciones de preprocesamiento a la señal antes del proceso de codificación: filtrado de paso alto y preacentuación.
El filtro de paso alto sirve como una precaución contra componentes de baja frecuencia no deseadas. En esta realización ilustrativa se utiliza un filtro a una frecuencia de corte de 50 Hz, y viene dado por
1
En la preacentuación se utiliza un filtro de paso alto de primer orden para acentuar frecuencias superiores y viene dada por
2
La preacentuación se utiliza en el códec AMR-WB para mejorar el rendimiento del códec a altas frecuencias y para mejorar la ponderación perceptual en el proceso de minimización de errores utilizado en el codificador.
En el resto de esta realización ilustrativa, la señal en la entrada del algoritmo de reducción de ruido se convierte a una frecuencia de muestreo de 12,8 kHz y se preprocesa tal y como se ha descrito anteriormente. Sin embargo, las técnicas descritas pueden aplicarse igualmente a señales a otras frecuencias de muestreo tales como 8 kHz o 16 kHz con o sin preprocesamiento.
A continuación se describirá en detalle el algoritmo de reducción de ruido. El codificador de voz en el que se utiliza el algoritmo de reducción de ruido funciona con tramas de 20 ms que contienen 256 muestras a una frecuencia de muestreo de 12,8 kHz. Además, el codificador utiliza una anticipación de 13 ms con respecto a la trama futura en su análisis. La reducción de ruido sigue la misma estructura de entramado. Sin embargo, pueden introducirse algunos cambios entre el entramado del codificador y el entramado de reducción de ruido para maximizar el uso de la anticipación. En esta descripción, los índices de las muestras reflejarán el entramado de reducción de ruido.
La figura 1 muestra una visión general de un sistema de comunicación de voz que incluye reducción de ruido. En el bloque 101 se lleva a cabo un preprocesamiento como el ejemplo ilustrativo descrito anteriormente.
En el bloque 102 se lleva a cabo un análisis espectral y una detección de actividad de voz (VAD, voice activity detection). Dos análisis espectrales se llevan a cabo en cada trama utilizando ventanas de 20 ms con un solapamiento del 50%. En el bloque 103, se aplica una reducción de ruido a los parámetros espectrales y después se utiliza la DFT inversa para volver a convertir la señal mejorada al dominio de tiempo. Después se utiliza una operación de solapamiento y suma para reconstruir la señal.
En el bloque 104 se lleva a cabo un análisis de predicción lineal (LP, linear prediction) y un análisis de tono en bucle abierto (normalmente como parte del algoritmo de codificación de voz). En esta realización ilustrativa, los parámetros resultantes del bloque 104 se utilizan en la decisión para actualizar las estimaciones de ruido en las bandas críticas (bloque 105). La decisión VAD también puede utilizarse como la decisión de actualización de ruido. Las estimaciones de energía de ruido actualizadas en el bloque 105 se utilizan en la siguiente trama en el bloque 103 de reducción de ruido para calcular las ganancias de escalado. El bloque 106 lleva a cabo una codificación de voz en la señal de voz mejorada. En otras aplicaciones, el bloque 106 puede ser un sistema automático de reconocimiento de voz. Obsérvese que las funciones del bloque 104 pueden ser una parte integral del algoritmo de codificación de voz.
\vskip1.000000\baselineskip
Análisis espectral
La transformada discreta de Fourier se utiliza para llevar a cabo el análisis espectral y la estimación de energía de espectro. El análisis de frecuencia se lleva a cabo dos veces por trama utilizando la transformada rápida de Fourier (FFT, Fast Fourier Transform) de 256 puntos con un solapamiento del 50 por ciento (tal y como se ilustra en la figura 2). Las ventanas de análisis se colocan de manera que se utilice toda la anticipación. Se colocan 24 muestras al principio de la primera ventana después del principio de la trama actual del codificador de voz. En la segunda ventana se colocan 128 muestras adicionales. La raíz cuadrada de una ventana Hanning (que es equivalente a una ventana sinusoidal) se ha utilizado para ponderar la señal de entrada para el análisis de frecuencia. En particular, esta ventana es muy adecuada para procedimientos de solapamiento y suma (por lo tanto, este análisis espectral particular se utiliza en el algoritmo de supresión de ruido en base a la sustracción espectral y al análisis/síntesis de solapamiento y suma). La ventana Hanning de raíz cuadrada viene dada por
3
donde L_{FFT}=256 es el tamaño del análisis FTT. Obsérvese que sólo se calcula y se almacena la mitad de la ventana ya que es simétrica (de 0 a L_{FFT}/2).
Denótese como s'(n) la señal con índice 0 correspondiente a la primera muestra de la trama de reducción de ruido (en esta realización ilustrativa hay 24 muestras más que al principio de la trama de codificador de voz). La señal dividida en ventanas para ambos análisis espectrales se obtiene como
4
donde s'(0) es la primera muestra en la trama de reducción de ruido actual.
La FFT se lleva a cabo en ambas señales divididas en ventanas para obtener dos conjuntos de parámetros espectrales por trama:
5
La salida de la FFT proporciona la parte real y la parte imaginaria del espectro denotadas por X_{R}(k), k=0 hasta 128, y X_{I}(k), k=1 hasta 127. Obsérvese que X_{R}(0) corresponde al espectro a 0 Hz (DC) y X_{R}(128) corresponde al espectro a 6400 Hz. El espectro en estos puntos es solamente un valor real y normalmente se ignora en el posterior análisis.
Después del análisis FFT, el espectro resultante se divide en bandas críticas utilizando los intervalos que presentan los siguientes límites superiores (20 bandas en el intervalo de frecuencia de 0 a 6400 Hz):
bandas críticas = {100,0; 200,0; 300,0; 400,0; 510,0; 630,0; 770,0; 920,0; 1080,0; 1270,0; 1480,0; 1720,0; 2000,0; 2320,0; 2700,0; 3150,0; 3700,0; 4400,0; 5300,0; 6350,0} Hz.
Véase el documento "Transform coding of audio signal using perceptual noise criteria", por D. Johnston, IEEE J. Select. Areas Commun., vol. 6, páginas 314 a 323, febrero de 1988.
La FFT de 256 puntos da como resultado una resolución de frecuencia de 50 Hz (6400/128). Por lo tanto, después de ignorar la componente DC del espectro, el número de contenedores de frecuencia por cada banda crítica es M_{BC} = {2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 8, 9, 11, 14, 18, 21}, respectivamente.
La energía media en una banda crítica se calcula como
6
donde X_{R}(k) y X_{I}(k) son, respectivamente, la parte real y la parte imaginaria del k-ésimo contendor de frecuencia y j_{i} es el índice del primer contenedor de la i-ésima banda crítica dada por j_{i} = {1, 3, 5, 7, 9, 11, 13, 16, 19, 22, 26, 30, 35, 41, 47, 55, 64, 75, 89, 107}.
El módulo de análisis espectral también calcula la energía por contenedor de frecuencia, E_{BIN}(k), para las 17 primeras bandas críticas (74 contenedores excluyendo la componente DC)
7
Finalmente, el módulo de análisis espectral calcula la energía total media para ambos análisis FTT en una trama de 20 ms sumando las energías medias de banda crítica E_{CB}. Es decir, la energía de espectro para un determinado análisis espectral se calcula como
8
y la energía de trama total se calcula como la media de las energías de espectro de ambos análisis espectrales en una trama. Es decir,
9
Los parámetros de salida del módulo de análisis espectral, es decir, la energía media por banda crítica, la energía por contenedor de frecuencia y la energía total se utilizan en los módulos VAD, de reducción de ruido y de selección de velocidad.
Obsérvese que para entradas de banda estrecha muestreadas a 8000 muestras/s, después de una conversión de muestreo a 12800 muestras/s, no hay contenido en ambos extremos del espectro, por lo que la primera banda crítica de frecuencia inferior así como las tres últimas bandas de alta frecuencia no se consideran en el cálculo de los parámetros de salida (sólo se consideran las bandas desde i = 1 hasta 16).
Detección de actividad de voz
El análisis espectral descrito anteriormente se lleva a cabo dos veces por trama. Denoten E_{CB}^{(1)}(i) y E_{CB}^{(2)}(i) la información de energía por banda crítica para el primer y el segundo análisis espectral, respectivamente (tal y como se calcula en la ecuación (2)). La energía media por banda crítica para toda la trama y parte de la trama anterior se calcula como
10
donde E_{CB}^{(0)}(i) denota la información de energía por banda crítica del segundo análisis de la trama anterior. La relación señal a ruido (SNR) por banda crítica se calcula entonces como
11
donde N_{CB}(i) es la energía de ruido estimada por banda crítica tal y como se explicará en la siguiente sección. La SNR media por trama se calcula entonces como
12
donde b_{min}=0 y b_{max}=19 en caso de señales de banda ancha, y b_{min}=1 y b_{max}=16 en caso de señales de banda estrecha.
La actividad de voz se detecta comparando la SNR media por trama con un determinado umbral que es una función de la SNR de larga duración. La SNR de larga duración viene dada por
13
donde \overline{\mathit{E}}_{\fint} y \overline{\mathit{N}}_{\fint} se calculan utilizando la ecuaciones (12) y (13), respectivamente, las cuales se describirán posteriormente. El valor inicial de \overline{\mathit{E}}_{\fint} es de 45 dB.
El umbral es una función lineal por segmentos de la SNR de larga duración. Se utilizan dos funciones, una para la voz limpia y otra para la voz ruidosa.
Para señales de banda ancha, si SNR_{LT} < 35 (voz ruidosa), entonces
14
si no (voz limpia)
15
Para señales de banda estrecha, si SNR_{LT} < 29,6 (voz ruidosa), entonces
16
si no (voz limpia)
17
Además, se añade una histéresis en la decisión VAD para impedir una conmutación de frecuencia al final de un periodo de voz activa. Esto se aplica en caso de que la trama esté en un periodo de mantenimiento flexible o si la última trama es una trama de voz activa. El periodo de mantenimiento flexible consiste en las 10 primeras tramas después de cada ráfaga de voz activa mayor que 2 tramas consecutivas. En caso de voz ruidosa (SNR_{LT} < 35), la histéresis disminuye el umbral de decisión VAD en
18
En caso de voz limpia, la histéresis disminuye el umbral de decisión VAD en
19
Si la SNR media por trama es mayor que el umbral de decisión VAD, es decir, si SNR_{av} > Umb_{VAD}, entonces la trama se considera como una trama de voz activa y el indicador VAD y un indicador VAD local se fijan a 1. En caso contrario, el indicador VAD y el indicador VAD local se fijan a 0. Sin embargo, en caso de voz ruidosa, el indicador VAD se fuerza a 1 en tramas de mantenimiento firme, es decir, una o dos tramas inactivas después de un periodo de voz
mayor que 2 tramas consecutivas (entonces, el indicador VAD local es igual a 0 pero el indicador VAD se fuerza a 1).
\vskip1.000000\baselineskip
Primer nivel de estimación y actualización de ruido
En esta sección se calcula la energía de ruido total, la energía de trama relativa, la actualización de la energía de ruido media de larga duración y de la energía de trama media de larga duración, la energía media por banda crítica y un factor de corrección de ruido. Además, se proporciona una inicialización de energía de ruido y una actualización descendente.
La energía de ruido total por trama viene dada por
20
donde N_{CB}(i) es la energía de ruido estimada por banda crítica.
La energía relativa de la trama viene dada por la diferencia entre la energía de trama en dB y la energía media de larga duración. La energía de trama relativa viene dada por
21
donde E_{t} se proporciona en la ecuación (5).
La energía de ruido media de larga duración o la energía de trama media de larga duración se actualizan en cada trama. En caso de tramas de voz activa (indicador VAD = 1), la energía de trama media de larga duración se actualiza utilizando la relación
22
con un valor inicial de \overline{E}_{\fint} = 45 dB.
En caso de tramas de voz inactivas (indicador VAD = 0), la energía de ruido media de larga duración se actualiza mediante
23
El valor inicial \overline{\mathit{N}}_{\fint} de se fija igual a N_{tot} para las 4 primeras tramas. Además, en las 4 primeras tramas, el valor de \overline{\mathit{E}}_{\fint} está delimitado por \overline{\mathit{E}}_{\fint} \geq \overline{\mathit{N}}_{tot} + 10.
\vskip1.000000\baselineskip
Energía de trama por banda crítica, inicialización de ruido y actualización de ruido descendente
La energía de trama por banda crítica para toda la trama se calcula obteniendo la media de las energías de ambos análisis espectrales en la trama. Es decir,
24
La energía de ruido por banda crítica N_{CB} (i) se inicializa inicialmente a 0,03. Sin embargo, en las 5 primeras subtramas, si la energía de señal no es demasiado alta o si la señal no presenta fuertes componentes de alta frecuencia, entonces la energía de ruido se inicializa utilizando la energía por banda crítica de manera que el algoritmo de reducción de ruido puede ser eficaz desde el principio del procesamiento. Se calculan dos relaciones de alta frecuencia: r_{15,16} es la relación entre la energía media de las bandas críticas 15 y 16 y la energía media de las 10 primeras bandas (la media de ambos análisis espectrales), y r_{18,19} es la misma relación pero para las bandas 18 y 19.
En las 5 primeras tramas, si E_{t} < 49 y r_{15,16} < 2 y r_{18,19} < 1,5, entonces para las 3 primeras tramas,
25
y para las dos siguientes tramas N_{CB}(i) se actualiza como
26
Para las siguientes tramas, en esta etapa, sólo se lleva a cabo una actualización descendente de energía de ruido para las bandas críticas, por lo que la energía es inferior a la energía de ruido de fondo. En primer lugar, la energía de ruido actualizada temporal se calcula como
27
donde E_{CB}^{(0)}(i) corresponde al segundo análisis espectral de la trama anterior.
Entonces, para i = 0 hasta 19, si N_{tmp}(i) < N_{CB}(i), entonces N_{CB}(i) = N_{tmp}(i).
Después se lleva a cabo un segundo nivel de actualización de ruido estableciendo que N_{CB}(i) = N_{tmp}(i) si la trama se declara como trama inactiva. La razón para fragmentar la actualización de energía de ruido en dos partes es que la actualización de ruido sólo puede ejecutarse durante tramas de voz inactivas y, por lo tanto, se necesitan todos los parámetros necesarios para la decisión de actividad de voz. Sin embargo, estos parámetros dependen del análisis de predicción LP y del análisis de tono en bucle abierto, ejecutados en señales de voz sin ruido. Para que el algoritmo de reducción de ruido tenga una estimación de ruido lo más precisa posible, la actualización de estimación de ruido se actualiza por tanto de manera descendente antes de la ejecución de reducción de ruido y después de manera ascendente si la trama está inactiva. La actualización de ruido descendente es segura y puede llevarse a cabo independientemente de la activad de voz.
Reducción de ruido
La reducción de ruido se aplica al dominio de señal y la señal sin ruido se reconstruye después utilizando solapamiento y suma. La reducción se lleva a cabo escalando el espectro en cada banda crítica con una ganancia de escalado limitada entre g_{min} y 1 y se obtiene a partir la relación señal a ruido (SNR) en esa banda crítica. Una nueva característica en la supresión de ruido es que para frecuencias inferiores a una determinada frecuencia relacionada con la sonoridad de la señal, el procesamiento se lleva a cabo por cada contenedor de frecuencia y no por cada banda crítica. Por tanto, se aplica una ganancia de escalado a cada contenedor de frecuencia obtenido a partir de la SNR en ese contenedor (la SNR se calcula utilizando la energía de contenedor dividida por la energía de ruido de la banda crítica que incluye a ese contenedor). Esta nueva característica permite conservar la energía a frecuencias próximas a los armónicos impidiendo la distorsión mientras que se reduce en gran medida el ruido entre los armónicos. Esta característica puede utilizarse solamente para señales sonoras y, dada la resolución de frecuencia del análisis de frecuencia utilizado, para señales con un periodo de tono relativamente corto. Sin embargo, éstas son precisamente las señales en las que el ruido entre armónicos es más perceptible.
La figura 3 muestra una visión general del procedimiento descrito. En el bloque 301, se lleva a cabo el análisis espectral. El bloque 302 verifica si el número de bandas críticas sonoras es mayor que 0. Si es así, entonces se lleva a cabo la reducción de ruido en el bloque 304 donde se lleva a cabo un procesamiento por contenedor en las K primeras bandas sonoras y donde se lleva a cabo un procesamiento por banda en las bandas restantes. Si K=0, entonces se aplica el procesamiento por banda a todas las bandas críticas. Después de la reducción de ruido en el espectro, el bloque 305 lleva a cabo el análisis de DFT inversa y se utiliza la operación de solapamiento y suma para reconstruir la señal de voz mejorada tal y como se describirá posteriormente.
La ganancia de escalado mínima g_{min} se obtiene a partir de la máxima reducción de ruido permitida en dB, NR_{max}. La máxima reducción permitida tiene un valor por defecto de 14 dB. Esta ganancia de escalado mínima viene dada por
28
y es igual a 0,19953 para el valor por defecto de 14 dB.
En caso de tramas inactivas con VAD=0, se aplica el mismo escalado por todo el espectro y viene dada por g_{s} = 0,9g_{min} si se activa la supresión de ruido (si g_{min} es menor que 1). Es decir, las componentes real e imaginaria escaladas del espectro vienen dadas por
29
Obsérvese que para entradas de banda estrecha, los límites superiores de la ecuación (19) se fijan a 79 (hasta 3950 Hz).
Para tramas activas, la ganancia de escalado se calcula con relación a la SNR por banda crítica o por contenedor para las primeras bandas sonoras. Si K_{SONORAS} > 0, entonces la supresión de ruido por contenedor se lleva a cabo en las K_{SONORAS} primeras bandas. La supresión de ruido por banda se utiliza en el resto de las bandas. En caso de que K_{SONORAS} = 0, la supresión de ruido por banda se utiliza en todo el espectro. El valor de K_{SONORAS} se actualiza tal y como se describirá posteriormente. El valor máximo de K_{SONORAS} es 17, por lo que el procesamiento por contenedor puede aplicarse solamente en las 17 primeras bandas críticas correspondientes a una frecuencia máxima de 3700 Hz. El número máximo de contenedores para los que puede utilizarse el procesamiento por contenedor es de 74 (el número de contenedores en las 17 primeras bandas). Hay una excepción para las tramas de mantenimiento firme que se describirá posteriormente en esta sección.
En una implementación alternativa, el valor de K_{SONORAS} puede ser fijo. En este caso, en todos los tipos de tramas de voz, el procesamiento por contenedor se lleva a cabo hasta una banda determinada y el procesamiento por banda se aplica a las otras bandas.
La ganancia de escalado en una banda crítica determinada, o para un contenedor de frecuencia determinado, se calcula en función de la SNR y viene dada por
30
Los valores de k_{s} y de c_{s} se determinan de tal manera que g_{s} = g_{min} para SNR = 1, y g_{s} = 1 para SNR = 45. Para las SNR a 1 dB e inferiores, el escalado está limitado a g_{s} y para las SNR a 45 dB y superiores, no se lleva a cabo la supresión de ruido en la banda crítica dada (g_{s}=1). Por lo tanto, dados estos dos puntos de extremo, los valores de k_{s} y de c_{s} en la ecuación (20) vienen dados por
\vskip1.000000\baselineskip
31
\vskip1.000000\baselineskip
La variable SNR en la ecuación (20) es la SNR por banda crítica, SNR_{CB}(i), o la SNR por contenedor de frecuencia, SNR_{BIN}(k), dependiendo del tipo de procesamiento.
La SNR por banda crítica se calcula en el caso del primer análisis espectral en la trama como
32
y para el segundo análisis espectral, la SNR se calcula como
\vskip1.000000\baselineskip
33
donde E_{CB}^{(1)}(i) y E_{CB}^{(2)}(i) denotan la información de energía por banda crítica para el primer y el segundo análisis espectral, respectivamente (tal y como se calcula en la ecuación (2)), E_{CB}^{(0)}(i) denota la información de energía por banda crítica del segundo análisis de la trama anterior, y N_{CB}(i) denota la estimación de energía de ruido por banda crítica.
La SNR por contenedor crítico en una determina banda crítica i se calcula en el caso del primer análisis espectral en la trama como
\vskip1.000000\baselineskip
34
\vskip1.000000\baselineskip
y para el segundo análisis espectral, la SNR se calcula como
\vskip1.000000\baselineskip
35
donde E_{BIN}^{(1)}(i) y E_{BIN}^{(2)}(i) denotan la energía por contenedor de frecuencia para el primer y el segundo análisis espectral, respectivamente (tal y como se calcula en la ecuación (3)), E_{BIN}^{(0)}(i) denota la energía por contenedor de frecuencia del segundo análisis de la trama anterior, N_{CB}(i) denota la estimación de energía de ruido por banda crítica, j_{i} es el índice del primer contenedor de la i-ésima banda crítica y M_{CB}(i) es el número de contenedores de la banda crítica i definida anteriormente.
En caso de procesamiento por banda crítica para una banda con índice i, después de determinar la ganancia de escalado como en la ecuación (22) y utilizando la SNR definida en las ecuaciones (24) o (25), el escalado real se lleva a cabo utilizando una ganancia de escalado alisada y actualizada en cada análisis de frecuencia como
36
En esta invención, una característica novedosa es que el factor de alisado es adaptativo y está relacionado de manera inversa con la propia ganancia. En esta realización ilustrativa, el factor de alisado viene dado por \alpha_{gs} = 1 - g_{s}. Es decir, el alisado es más fuerte para ganancias g_{s} más pequeñas. Este enfoque impide la distorsión en segmentos de voz con una alta SNR precedidos por tramas con una SNR baja, como es el caso de ataques sonoros. Por ejemplo, en tramas de voz sordas la SNR es baja, por lo que se utiliza una ganancia de escalado fuerte para reducir el ruido en el espectro. Si un ataque sonoro sigue a la trama sorda, la SNR se vuelve más alta, y si el alisado de ganancia impide una rápida actualización de la ganancia de escalado, entonces es probable que se utilice un escalado fuerte en el ataque sonoro, lo que dará como resultado un bajo rendimiento. En el enfoque propuesto, el procedimiento de alisado puede adaptarse rápidamente y utilizar ganancias de escalado inferiores en el ataque.
El escalado en la banda crítica viene dado como
37
donde j_{i} es el índice del primer contenedor de la banda crítica i y M_{CB}(i) es el número de contenedores en esa banda crítica.
En caso de procesamiento por contenedor en un banda con índice i, después de determinar la ganancia de escalado como en la ecuación (20) y utilizando la SNR definida en las ecuaciones (24) o (25), el escalado real se lleva a cabo utilizando una ganancia de escalado alisada y actualizada en cada análisis de frecuencia como
38
donde \alpha_{gs} = 1 - g_{s}, de manera similar a la ecuación (26).
El alisado temporal de las ganancias impide oscilaciones de energía audibles mientras que el control del alisado utilizando \alpha_{gs} impide la distorsión en segmentos de voz con una SNR alta precedidos por tramas con una SNR baja, como es el caso de los ataques sonoros, por ejemplo.
El escalado en la banda crítica i se lleva a cabo como
39
donde j_{i} es el índice del primer contenedor de la banda crítica i y M_{CB}(i) es el número de contenedores de esa banda crítica.
Las ganancias de escalado alisadas g_{BIN,LP}(k) y g_{CB,LP}(i) se fijan inicialmente a 1. Cada vez que se procese una trama inactiva (VAD = 0), los valores de ganancias alisadas se reajustan a la g_{min} definida en la ecuación (18).
Tal y como se ha mencionado anteriormente, si K_{SONORAS} > 0 se lleva a cabo una supresión de ruido por contenedor en las K_{SONORAS} primeras bandas y se lleva a cabo una supresión de ruido por banda en las bandas restantes utilizando los procedimientos descritos anteriormente. Obsérvese que en cada análisis espectral, las ganancias de escalado alisadas g_{CB,LP}(i) se actualizan para todas las bandas críticas (incluso para bandas sonoras procesadas mediante el procesamiento por contenedor (en este caso g_{CB,LP}(i) se actualiza con la media de g_{BIN,LP}(k) perteneciente a la banda i). De manera similar, las ganancias de escalado g_{BIN,LP}(k) se actualizan para todos los contenedores de frecuencia de las 17 primeras bandas (hasta el contenedor 74). Las bandas procesadas mediante procesamiento por banda se actualizan fijándolas igual a g_{CP,LP}(k) en estas 17 bandas específicas.
Obsérvese que en caso de voz limpia, no se lleva a cabo la supresión de ruido en tramas de voz activas (VAD = 1). Esto se detecta hallando la máxima energía de ruido en todas las bandas críticas, max(N_{CB}(i)), i = 0...19, y si este valor es inferior o igual a 15, entonces no se lleva a cabo la supresión de ruido.
Tal y como se ha mencionado anteriormente, para tramas inactivas (VAD = 0), se aplica un escalado de 0,9 g_{min} a todo el espectro, lo que es equivalente a eliminar un umbral mínimo de ruido constante. Para tramas VAD de mantenimiento corto (VAD = 1 y VAD_local = 0), se aplica el procesamiento por banda a las 10 primeras bandas tal y como se ha descrito anteriormente (correspondiendo a 1700 Hz), y para el resto del espectro, un umbral mínimo de ruido constante se sustrae escalando el resto del espectro por un valor constante g_{min}. Esta medida reduce significativamente las oscilaciones de energía de ruido de alta frecuencia. Para las bandas por encima de la décima banda, las ganancias de escalado alisadas g_{CB,LP}(k) no se reajustan sino que se actualizan utilizando la ecuación (26) con g_{s} = g_{min} y las ganancias de escalado alisadas g_{BIN,LP}(k) por contenedor se actualizan fijándolas igual a g_{CB,LP}(i) en las bandas críticas correspondientes.
El procedimiento descrito anteriormente puede verse como una reducción de ruido específica de clase, donde el algoritmo de reducción depende de la naturaleza de la trama de voz que está procesándose. Esto se ilustra en la figura 4. El bloque 401 verifica si el indicador VAD es 0 (voz inactiva). Si es así, entonces un umbral mínimo de ruido constante se elimina del espectro aplicando la misma ganancia de escalado en todo el espectro (bloque 402). En caso contrario, el bloque 403 verifica si la trama es una trama de mantenimiento VAD. Si es así, entonces se utiliza el procesamiento por banda en las 10 primeras bandas y se utiliza la misma ganancia de escalado en las bandas restantes (bloque 406). En caso contrario, el bloque 405 verifica si se detecta sonoridad en las primeras bandas del espectro. Si es así, entonces se lleva a cabo el procesamiento por contenedor en las K primeras bandas sonoras y se lleva a cabo el procesamiento por banda en las bandas restantes (bloque 406). Si no se detecta ninguna banda sonora, entonces se lleva a cabo el procesamiento por banda en todas las bandas críticas (bloque 407).
En caso de procesar señales de banda estrecha (muestradas de manera ascendente hasta 12800 Hz), se lleva a cabo la supresión de ruido en las 17 primeras bandas (hasta 3700 Hz). Para los 5 contenedores de frecuencia restantes entre 3700 Hz y 4000 Hz, el espectro se escala utilizando la última ganancia de escalado g_{s} en el contenedor a 3700 Hz. Para el resto del espectro (desde 4000 Hz hasta 6400 Hz), es espectro se ajusta a cero.
\vskip1.000000\baselineskip
Reconstrucción de una señal sin ruido
Después de determinar las componentes espectrales escaladas, X'_{R}(k) y X'_{l}(k), se aplica la FFT inversa en el espectro escalado para obtener la señal sin ruido divida en ventanas en el dominio de tiempo.
40
Esto se repite para ambos análisis espectrales en la trama para obtener las señales sin ruido divididas en ventanas x_{w,d}^{(1)}(n) y x_{w,d}^{(2)}(n). Para cada media trama, la señal se reconstruye utilizando una operación de solapamiento y suma para las partes solapadas del análisis. Puesto que se utiliza una ventana Hanning de raíz cuadrada en la señal original antes del análisis espectral, la misma ventana se aplica en la salida de la FFT inversa antes de la operación de solapamiento y suma. Por tanto, la doble señal sin ruido dividida en ventanas viene dada por
41
Para la primera mitad de la ventana de análisis, la operación de solapamiento y suma para construir la señal sin ruido se lleva a cabo como
42
y para la segunda mitad de la ventana de análisis, la operación de solapamiento y suma para construir la señal sin ruido se lleva a cabo como
43
donde x_{w,d}^{(0)}(n) es la doble señal sin ruido dividida en ventanas del segundo análisis en la trama anterior.
Obsérvese que con la operación de solapamiento y suma, puesto que hay un desfase de 24 tramas entre la trama de codificador de voz y la trama de reducción de ruido, la señal sin ruido puede reconstruirse hasta 24 muestras con respecto a la anticipación además de la trama actual. Sin embargo, todavía se necesitan otras 128 muestras para completar la anticipación que necesita el codificador de voz para el análisis de predicción lineal (LP) y el análisis de tono en bucle abierto. Esta parte se obtiene temporalmente mediante una división en ventanas inversa de la segunda mitad de la señal sin ruido dividida en ventanas x_{w,d}^{(2)}(n) sin llevar a cabo una operación de solapamiento y suma. Es decir
44
Obsérvese que esta parte de la señal se recalcula de manera adecuada en la siguiente trama utilizando la operación de solapamiento y suma.
\vskip1.000000\baselineskip
Actualización de las estimaciones de energía de ruido
Este módulo actualiza las estimaciones de energía de ruido por banda crítica para la supresión de ruido. La actualización se lleva a cabo durante periodos de voz inactiva. Sin embargo, la decisión VAD llevada a cabo anteriormente, que se basa en la SNR por banda crítica, no se utiliza para determinar si las estimaciones de energía de ruido están actualizadas. Otra decisión se lleva a cabo en base a otros parámetros independientes de la SRN por banda crítica. Los parámetros utilizados para la decisión de actualización de ruido son: la estabilidad de tono, la no estacionalidad de la señal, la sonoridad y la relación entre las energías de error residual LP de segundo orden y de decimosexto orden y presentan generalmente poca sensibilidad a las variaciones de nivel de ruido.
\newpage
La razón de no utilizar la decisión VAD de codificador para la actualización de ruido es hacer la estimación de ruido robusta para cambiar rápidamente niveles de ruido. Si se utiliza la decisión VAD de codificador para la actualización de ruido, un aumento repentino en el nivel de ruido provocaría un aumento de la SNR incluso para tramas de voz inactivas, impidiendo la actualización del estimador de ruido, lo que a su vez mantendría la SNR alta en las siguientes tramas, etc. Por consiguiente, la actualización de ruido estaría bloqueada y se necesitaría alguna otra lógica para continuar con la adaptación de ruido.
En esta realización ilustrativa, el análisis de tono en bucle abierto se lleva a cabo en el codificador para calcular tres estimaciones de tono en bucle abierto por trama: d_{0}, d_{1} y d_{2}, correspondientes a la primera media trama, a la segunda media trama y a la anticipación, respectivamente. El contador de estabilidad de tono se calcula como
45
donde d_{-1} es el retardo de la segunda media trama de la trama anterior. En esta realización ilustrativa, para retardos de tono mayores que 122, el módulo de búsqueda de tono en bucle abierto establece que d_{2} = d_{1}. Por lo tanto, para tales retardos, el valor de pc en la ecuación (31) se multiplica por 3/2 para compensar el tercer término que falta en la ecuación. La estabilidad de tono es cierta si el valor de pc es menor que 12. Además, para tramas con baja sonoridad, pc se fija a 12 para indicar inestabilidad de tono. Es decir,
46
donde C_{norm}(d) es la correlación aproximada normalizada y r_{e} es una correlación opcional añadida a la correlación normalizada con el fin de compensar la disminución de la correlación normalizada en presencia de ruido de fondo. En esta realización ilustrativa, la correlación normalizada se calcula en base a las señales de voz ponderadas reducidas s_{wd}(n) y viene dada por
47
donde el límite de suma depende del propio retardo. En esta realización ilustrativa, la señal ponderada utilizada en el análisis de tono en bucle abierto se reduce por 2 y los límites de suma se proporcionan según lo siguiente
48
La estimación de no estacionalidad de la señal se lleva a cabo en base al producto de las relaciones entre la energía por banda crítica y la energía media de larga duración por banda crítica.
La energía media de larga duración por banda crítica se actualiza mediante
49
donde b_{min} = 0 y b_{max} = 19 en caso de señales de banda ancha, y b_{min} = 1 y b_{max} = 16 en caso de señales de banda estrecha, y \overline{\mathit{E}}_{CB} es la energía de trama por banda crítica definida en la ecuación (14). El factor de actualización \alpha_{e} es una función lineal de la energía de trama total, definida en la ecuación (5), y viene dado de la siguiente manera:
Para señales de banda ancha: \alpha_{e} = 0,0245_{tot} - 0,235 delimitado por 0,5 \leq \alpha_{e} \leq 0,99.
Para señales de banda estrecha: \alpha_{e} = 0,00091E_{tot} + 0,3185 delimitado por 0,5 \leq \alpha_{e} \leq 0,999.
La no estacionaridad de trama viene dada por el producto de las relaciones entre la energía de trama y la energía media de larga duración por banda crítica. Es decir
50
El factor de sonoridad para la actualización de ruido viene dado por
51
Finalmente, la relación entre la energía residual LP después del análisis de segundo orden y de decimosexto orden viene dada por
52
donde E(2) y E(16) son las energías residuales LP después del análisis de segundo orden y de decimosexto orden, y calculadas en la recursión de Levinson-Durbin ampliamente conocida por los expertos en la técnica. Esta relación refleja el hecho de que para representar una envoltura espectral de señal, generalmente se necesita un orden superior de LP para la señal de voz que para el ruido. Dicho de otro modo, se espera que la diferencia entre E(2) y E(16) sea inferior para el ruido que para la voz activa.
La decisión de actualización se determina en base a una variable actualización_ruido que inicialmente se fija a 6, la cual disminuye en 1 si se detecta una trama inactiva y aumenta en 2 si se detecta una trama activa. Además, actualización_ruido está delimitada entre 0 y 6. Las energías de ruido se actualizan solamente cuando
actualización_ruido = 0.
El valor de la variable actualización_ruido se actualiza en cada trama de la siguiente manera:
Si (noestac > Umb_{estac}) O (pc < 12) O (sonoridad > 0,85) O (rel_resid > Umb_{resid})
actualización_ruido = actualización_ruido + 2
si no
actualización_ruido = actualización_ruido - 1
donde para señales de banda ancha, Umb_{estac} = 350000 y Umb_{resid} = 1,9, y para señales de banda estrecha,
Umb_{estac} = 500000 y Umb_{resid} = 11.
Dicho de otro modo, las tramas se declaran inactivas para la actualización de ruido cuando
(noestac \leq Umb_{estac}) Y (pc \geq 12) Y (sonoridad \leq 0,85) Y (rel_resid \leq Umb_{resid}) y se utiliza un mantenimiento de 6 tramas antes de tenga lugar la actualización de ruido.
Por lo tanto, si actualización_ruido = 0, entonces
para i =0 hasta 19 N_{CB}(i) = N_{tmp}(i)
donde N_{tmp}(i) es la energía de ruido actualizada temporal ya calculada en la ecuación (17).
\vskip1.000000\baselineskip
Actualización de la frecuencia de corte de sonoridad
Se actualiza la frecuencia de corte por debajo de la cual una señal se considera sonora. Esta frecuencia se utiliza para determinar el número de bandas críticas para las que se lleva a cabo la supresión de ruido usando el procesamiento por contenedor.
\newpage
En primer lugar, una medición de sonoridad se calcula como
53
y la frecuencia de corte de sonoridad viene dada por
54
Después se determina el número de bandas críticas, K_{SONORAS}, que presentan una frecuencia superior que no sobrepasa a f_{c}. Los límites de 325 \leq f_{c} \leq 3700 se fijan de tal manera que el procesamiento por contenedor se lleva a cabo en un mínimo de 3 bandas y en un máximo de 17 bandas (se hace referencia a los límites superiores de bandas críticas definidos anteriormente). Obsérvese que en el cálculo de medición de la sonoridad se da más peso a la correlación normalizada de la anticipación, puesto que el número determinado de bandas sonoras se usará en la siguiente trama.
Por tanto, en la siguiente trama, para las K_{SONORAS} primeras bandas críticas, la supresión de ruido utilizará el procesamiento por contenedor descrito anteriormente.
Obsérvese que para tramas con una baja sonoridad y para grandes retardos de altura de tono, sólo se utiliza el procesamiento por banda crítica y, por lo tanto, K_{SONORAS} se fija a 0. Se utiliza la siguiente condición:
Si (0,4C_{norm}(d_{1}) + 0,6C_{norm}(d_{2}) \leq 0,72) O (d_{1} > 116) OR (d_{2} > 116), entonces K_{SONORAS} = 0.
Por supuesto, otras muchas modificaciones y variaciones son posibles. En vista de la anterior descripción ilustrativa y detallada de realizaciones de esta invención y de los dibujos asociados, dichas otras modificaciones y variaciones serán ahora evidentes para los expertos en la técnica. Debe resultar evidente que dichas otras variaciones pueden llevarse a cabo sin apartarse del alcance de la presente invención definida en las reivindicaciones adjuntas.

Claims (83)

1. Un procedimiento para la supresión de ruido de una señal de voz, que comprende:
\quad
llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia; y
\quad
agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia,
\quad
caracterizado porque cuando se detecta actividad de voz sonora en la señal de voz se lleva a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y se lleva a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.
\vskip1.000000\baselineskip
2. Un procedimiento según la reivindicación 1, en el que el primer número de bandas de frecuencia se determina según el número de bandas de frecuencia que son sonoras.
3. Un procedimiento según la reivindicación 1, en el que el primer número de bandas de frecuencia se determina con respecto a una frecuencia de corte de sonoridad, que es una frecuencia por debajo de la cual la señal de voz se considera sonora.
4. Un procedimiento según la reivindicación 3, en el que el primer número de bandas de frecuencia incluye todas las bandas de frecuencia de la señal de voz que presentan una frecuencia superior que no sobrepasa la frecuencia de corte de sonoridad.
5. Un procedimiento según la reivindicación 1, en el que el primer número de bandas de frecuencia es un número fijo predeterminado.
6. Un procedimiento según la reivindicación 1, en el que si ninguna banda de frecuencia de la señal de voz es sonora, la supresión de ruido se lleva a cabo por cada banda de frecuencia para todas las bandas de frecuencia.
7. Un procedimiento según la reivindicación 1, en el que la señal de voz comprende tramas de voz que comprenden una pluralidad de muestras y el procedimiento de la reivindicación 1 se aplica para suprimir ruido en una trama de voz.
8. Un procedimiento según la reivindicación 7, que comprende llevar a cabo el análisis de frecuencia utilizando una ventana de análisis que está desfasada en m muestras con respecto a una primera muestra de la trama de voz.
9. Un procedimiento según la reivindicación 7, que comprende llevar a cabo un primer análisis de frecuencia utilizando una primera ventana de análisis que está desfasada en m muestras con respecto a una primera muestra de la trama de voz y una segunda ventana de análisis de frecuencia que está desfasada en p muestras con respecto a la primera muestra de la trama de voz.
10. Un procedimiento según la reivindicación 9, en el que m = 24 y p = 128.
11. Un procedimiento según la reivindicación 9, en el que la segunda ventana de análisis comprende una parte de anticipación que se extiende desde dicha trama de voz hasta una trama de voz posterior de la señal de voz.
12. Un procedimiento según la reivindicación 1, que comprende llevar a cabo una supresión de ruido aplicando una ganancia de escalado a los contenedores y/o a las bandas de frecuencia.
13. Un procedimiento según la reivindicación 1, en el que cuando se lleva a cabo una supresión de ruido por cada contenedor de frecuencia, el procedimiento comprende además determinar una ganancia de escalado específica de contenedor de frecuencia para un contenedor de frecuencia.
14. Un procedimiento según la reivindicación 1, en el que cuando se lleva a cabo una supresión de ruido por cada banda de frecuencia, el procedimiento comprende además determinar una ganancia de escalado específica de banda de frecuencia para una banda de frecuencia.
15. Un procedimiento según la reivindicación 6, que comprende llevar a cabo una supresión de ruido aplicando una ganancia de escalado constante para todas las bandas de frecuencia.
16. Un procedimiento según la reivindicación 13, que comprende determinar un valor para la ganancia de escalado específica de contenedor de frecuencia para un contenedor de frecuencia con referencia a una relación señal a ruido (SNR) determinada para el contenedor de frecuencia.
\newpage
17. Un procedimiento según la reivindicación 14, que comprende determinar un valor para la ganancia de escalado específica de banda de frecuencia para una banda de frecuencia con referencia a una relación señal a ruido (SNR) determinada para la banda de frecuencia.
18. Un procedimiento según la reivindicación 16, que comprende llevar a cabo las etapas de la reivindicación 16 para cada uno del primer y del segundo análisis de frecuencia.
19. Un procedimiento según la reivindicación 17, que comprende llevar a cabo las etapas de la reivindicación 17 para cada uno del primer y del segundo análisis de frecuencia.
20. Un procedimiento según una cualquiera de las reivindicaciones 12, 13 ó 14, en el que la ganancia de escalado es una ganancia de escalado alisada.
21. Un procedimiento según una cualquiera de las reivindicaciones 12, 13 ó 14, que comprende calcular una ganancia de escalado alisada que ha de aplicarse a un contenedor de frecuencia particular o a una banda de frecuencia particular utilizando un factor de alisado que presenta un valor que está relacionado de manera inversa con la ganancia de escalado para el contendor de frecuencia particular o banda particular.
22. Un procedimiento según una cualquiera de las reivindicaciones 12, 13 ó 14, que comprende calcular una ganancia de escalado alisada que ha de aplicarse a un contenedor de frecuencia particular o a una banda de frecuencia particular utilizando un factor de alisado que presenta un valor determinado de manera que el alisado sea más fuerte para valores más pequeños de la ganancia de escalado.
23. Un procedimiento según la reivindicación 13 ó 14, en el que determinar el valor de la ganancia de escalado se produce n veces por trama de voz, donde n es mayor que uno.
24. Un procedimiento según la reivindicación 23, donde n = 2.
25. Un procedimiento según la reivindicación 13 ó 14, que comprende determinar el valor de la ganancia de escalado n veces por trama de voz, donde n es mayor que uno, y donde la frecuencia de corte de sonoridad es al menos parcialmente una función de la señal de voz en una trama de voz anterior.
26. Un procedimiento según la reivindicación 13, en el que la supresión de ruido por cada contenedor de frecuencia se lleva a cabo en un máximo de 74 contenedores correspondientes a 17 bandas.
27. Un procedimiento según la reivindicación 13, en el que la supresión de ruido por cada contenedor de frecuencia se lleva a cabo en un número máximo de contenedores de frecuencia correspondientes a una frecuencia de 3700 Hz.
28. Un procedimiento según la reivindicación 16, en el que para un primer valor SNR, el valor de la ganancia de escalado se fija a un valor mínimo, y para un segundo valor SNR mayor que el primer valor SNR, el valor de la ganancia de escalado se fija a la unidad.
29. Un procedimiento según la reivindicación 28, en el que el primer valor SNR es igual a 1 dB aproximadamente, y donde el segundo valor SNR es de 45 dB aproximadamente.
30. Un procedimiento según la reivindicación 20, que comprende además detectar secciones de la señal de voz que no contienen voz activa.
31. Un procedimiento según la reivindicación 30, que comprende además reajustar la ganancia de escalado alisada a un valor mínimo como respuesta a la detección de una sección de la señal de voz que no contiene voz activa.
32. Un procedimiento según la reivindicación 7, en el que la supresión de ruido no se lleva a cabo cuando una energía de ruido máxima en una pluralidad de bandas de frecuencia está por debajo de un valor umbral.
33. Un procedimiento según la reivindicación 7, que comprende además, como respuesta a un caso de una trama de voz de mantenimiento corto, llevar a cabo la supresión de ruido aplicando una ganancia de escalado determinada por cada banda de frecuencia para x primeras bandas de frecuencia y, para las bandas de frecuencia restantes, llevar a cabo la supresión de ruido aplicando un único valor de ganancia de escalado.
34. Un procedimiento según la reivindicación 33, en el que las x primeras bandas de frecuencia corresponden a una frecuencia de hasta 1700 Hz.
35. Un procedimiento según la reivindicación 20, en el que para una señal de voz de banda estrecha, el procedimiento comprende además llevar a cabo la supresión de ruido aplicando ganancias de escalado alisadas determinadas por cada banda de frecuencia a x primeras bandas de frecuencia correspondientes a una frecuencia de hasta 3700 Hz, llevar a cabo la supresión de ruido aplicando el valor de la ganancia de escalado en el contenedor de frecuencia correspondiente a 3700 Hz a contenedores de frecuencia entre 3700 Hz y 4000 Hz, y ajustar a cero las bandas de frecuencia restantes del espectro de frecuencia de la señal de voz.
36. Un procedimiento según la reivindicación 35, en el que la señal de voz de banda estrecha es una señal que se muestrea de manera ascendente hasta 12800 Hz.
37. Un procedimiento según la reivindicación 3, que comprende además determinar la frecuencia de corte de sonoridad utilizando una medida de sonoridad calculada.
38. Un procedimiento según la reivindicación 37, que comprende además determinar una pluralidad de bandas críticas que presentan una frecuencia superior que no sobrepasa la frecuencia de corte de sonoridad, donde los límites se establecen de manera que la supresión de ruido por cada contenedor de frecuencia se lleva a cabo en un mínimo de x bandas y en un máximo de y bandas.
39. Un procedimiento según la reivindicación 38, donde x = 3 y donde y = 17.
40. Un procedimiento según la reivindicación 37, donde la frecuencia de corte de sonoridad está delimitada de manera que sea igual o mayor que 325 Hz e igual o menor que 3700 Hz.
41. Un dispositivo para suprimir ruido en una señal de voz, estando dispuesto el dispositivo para:
\quad
llevar a cabo un análisis de frecuencia para generar una representación de dominio espectral de la señal de voz que comprende una pluralidad de contenedores de frecuencia; y
\quad
agrupar los contenedores de frecuencia en una pluralidad de bandas de frecuencia,
\quad
caracterizado porque el dispositivo está dispuesto para detectar actividad de voz sonora y cuando se detecta actividad de voz sonora en la señal de voz, para llevar a cabo una supresión de ruido por cada contenedor de frecuencia para un primer número de bandas de frecuencia y para llevar a cabo una supresión de ruido por cada banda de frecuencia para un segundo número de bandas de frecuencia.
\vskip1.000000\baselineskip
42. Un dispositivo según la reivindicación 41, en el que el primer número de bandas de frecuencia se determina según el número de bandas de frecuencia que son sonoras.
43. Un dispositivo según la reivindicación 41, en el que el dispositivo está dispuesto para determinar el primer número de bandas de frecuencia con respecto a una frecuencia de corte de sonoridad, que es una frecuencia por debajo de la cual la señal de voz se considera sonora.
44. Un dispositivo según la reivindicación 43, en el que el primer número de bandas de frecuencia incluye todas las bandas de frecuencia de la señal de voz que presentan una frecuencia superior que no sobrepasa la frecuencia de corte de sonoridad.
45. Un dispositivo según la reivindicación 41, en el que el primer número de bandas de frecuencia es un número fijo predeterminado.
46. Un dispositivo según la reivindicación 41, estando el dispositivo dispuesto para llevar a cabo una supresión de ruido por cada banda de frecuencia para todas las bandas de frecuencia cuando ninguna banda de frecuencia de la señal de voz es sonora.
47. Un dispositivo según la reivindicación 41, en el que la señal de voz comprende tramas de voz que comprenden una pluralidad de muestras y el dispositivo está dispuesto para suprimir ruido en una trama de voz.
48. Un dispositivo según la reivindicación 47, en el que el dispositivo está dispuesto para llevar a cabo dicho análisis de frecuencia utilizando una ventana de análisis que está desfasada en m muestras con respecto a una primera muestra de la trama de voz.
49. Un dispositivo según la reivindicación 47, en el que el dispositivo está dispuesto para llevar a cabo un primer análisis de frecuencia utilizando una primera ventana de análisis que está desfasada en m muestras con respecto a una primera muestra de la trama de voz y una segunda ventana de análisis de frecuencia que está desfasada en p muestras con respecto a la primera muestra de la trama de voz.
50. Un dispositivo según la reivindicación 49, en el que m = 24 y p = 128.
51. Un dispositivo según la reivindicación 49, en el que la segunda ventana de análisis comprende una parte de anticipación que se extiende desde dicha trama de voz hasta una trama de voz posterior de la señal de voz.
52. Un dispositivo según la reivindicación 41, estando el dispositivo dispuesto para llevar a cabo una supresión de ruido aplicando una ganancia de escalado a los contenedores y/o a las bandas de frecuencia.
\newpage
53. Un dispositivo según la reivindicación 41, en el que cuando el dispositivo está dispuesto para llevar a cabo una supresión de ruido por cada contenedor de frecuencia, está dispuesto además para determinar una ganancia de escalado específica de contenedor de frecuencia para un contenedor de frecuencia.
54. Un dispositivo según la reivindicación 41, en el que cuando el dispositivo está dispuesto para llevar a cabo una supresión de ruido por cada banda de frecuencia, está dispuesto además para determinar una ganancia de escalado específica de banda de frecuencia para una banda de frecuencia.
55. Un dispositivo según la reivindicación 46, estando el dispositivo dispuesto para llevar a cabo una supresión de ruido aplicando una ganancia de escalado constante para todas las bandas de frecuencia.
56. Un dispositivo según la reivindicación 53, estando el dispositivo dispuesto para determinar un valor para la ganancia de escalado específica de contenedor de frecuencia para un contenedor de frecuencia con referencia a una relación señal a ruido (SNR) determinada para el contenedor de frecuencia.
57. Un dispositivo según la reivindicación 54, estando el dispositivo dispuesto para determinar un valor para la ganancia de escalado específica de banda de frecuencia para una banda de frecuencia con referencia a una relación señal a ruido (SNR) determinada para la banda de frecuencia.
58. Un dispositivo según la reivindicación 56, estando el dispositivo dispuesto para llevar a cabo las etapas de la reivindicación 56 para cada uno del primer y del segundo análisis de frecuencia.
59. Un dispositivo según la reivindicación 57, estando el dispositivo dispuesto para llevar a cabo las etapas de la reivindicación 57 para cada uno del primer y del segundo análisis de frecuencia.
60. Un dispositivo según una cualquiera de las reivindicaciones 52, 53 ó 54, en el que la ganancia de escalado es una ganancia de escalado alisada.
61. Un dispositivo según una cualquiera de las reivindicaciones 52, 53 ó 54, estando el dispositivo dispuesto para calcular una ganancia de escalado alisada que ha de aplicarse a un contenedor de frecuencia particular o a una banda de frecuencia particular utilizando un factor de alisado que presenta un valor que está relacionado de manera inversa con la ganancia de escalado para el contenedor de frecuencia particular o banda particular.
62. Un dispositivo según una cualquiera de las reivindicaciones 52, 53 ó 54, estando el dispositivo dispuesto para calcular una ganancia de escalado alisada que ha de aplicarse a un contenedor de frecuencia particular o a una banda de frecuencia particular utilizando un factor de alisado que presenta un valor determinado de manera que el alisado sea más fuerte para valores más pequeños de la ganancia de escalado.
63. Un dispositivo según la reivindicación 53 ó 54, estando el dispositivo dispuesto para determinar el valor de la ganancia de escalado n veces por trama de voz, donde n es mayor que uno.
64. Un dispositivo según la reivindicación 63, donde n = 2.
65. Un dispositivo según la reivindicación 53 ó 54, estando el dispositivo dispuesto para determinar el valor de la ganancia de escalado n veces por trama de voz, donde n es mayor que uno, y donde la frecuencia de corte de sonoridad es al menos parcialmente una función de la señal de voz en una trama de voz anterior.
66. Un dispositivo según la reivindicación 53, en el que el dispositivo está dispuesto para llevar a cabo una supresión de ruido por cada contenedor de frecuencia en un máximo de 74 contenedores correspondientes a 17 bandas.
67. Un dispositivo según la reivindicación 53, estando el dispositivo dispuesto para llevar a cabo una supresión de ruido por cada contenedor de frecuencia en un número máximo de contenedores de frecuencia correspondientes a una frecuencia de 3700 Hz.
68. Un dispositivo según la reivindicación 56, estando el dispositivo dispuesto para fijar el valor de la ganancia de escalado a un valor mínimo para un primer valor SNR, y para fijar el valor de la ganancia de escalado a la unidad para un segundo valor SNR mayor que el primer valor SNR.
69. Un dispositivo según la reivindicación 68, en el que el primer valor SNR es igual a 1 dB aproximadamente, y donde el segundo valor SNR es de 45 dB aproximadamente.
70. Un dispositivo según la reivindicación 60, estando el dispositivo dispuesto para detectar secciones de la señal de voz que no contienen voz activa.
71. Un dispositivo según la reivindicación 70, estando el dispositivo dispuesto para reajustar la ganancia de escalado alisada a un valor mínimo como respuesta a la detección de una sección de la señal de voz que no contiene voz activa.
72. Un dispositivo según la reivindicación 47, estando el dispositivo dispuesto para no llevar a cabo la supresión de ruido cuando una energía de ruido máxima en una pluralidad de bandas de frecuencia está por debajo de un valor umbral.
73. Un dispositivo según la reivindicación 47, en el que, como respuesta a un caso de una trama de voz de mantenimiento corto, el dispositivo está dispuesto para llevar a cabo una supresión de ruido aplicando una ganancia de escalado determinada por cada banda de frecuencia para x primeras bandas de frecuencia y para llevar a cabo una supresión de ruido aplicando un único valor de ganancia de escalado para las bandas de frecuencia restantes.
74. Un dispositivo según la reivindicación 73, en el que las x primeras bandas de frecuencia corresponden a una frecuencia de hasta 1700 Hz.
75. Un dispositivo según la reivindicación 60, en el que para una señal de voz de banda estrecha, el dispositivo está dispuesto para llevar a cabo una supresión de ruido aplicando ganancias de escalado alisadas determinadas por cada banda de frecuencia a x primeras bandas de frecuencia correspondientes a una frecuencia de hasta 3700 Hz, para llevar a cabo una supresión de ruido aplicando el valor de la ganancia de escalado en el contenedor de frecuencia correspondiente a 3700 Hz a contenedores de frecuencia entre 3700 Hz y 4000 Hz, y para ajustar a cero las bandas de frecuencia restantes del espectro de frecuencia de la señal de voz.
76. Un dispositivo según la reivindicación 75, en el que la señal de voz de banda estrecha es una señal que se muestrea de manera ascendente hasta 12800 Hz.
77. Un dispositivo según la reivindicación 43, estando el dispositivo dispuesto para determinar la frecuencia de corte de sonoridad utilizando una medida de sonoridad calculada.
78. Un dispositivo según la reivindicación 77, en el que el dispositivo está dispuesto para determinar una pluralidad de bandas críticas que presentan una frecuencia superior que no sobrepasa la frecuencia de corte de sonoridad, donde los límites están establecidos de manera que la supresión de ruido por cada contenedor de frecuencia se lleva a cabo en un mínimo de x bandas y en un máximo de y bandas.
79. Un dispositivo según la reivindicación 78, en el que x = 3 y donde y = 17.
80. Un dispositivo según la reivindicación 77, donde la frecuencia de corte de sonoridad está delimitada de manera que sea igual o mayor que 325 Hz e igual o menor que 3700 Hz.
81. Un codificador de voz que comprende un dispositivo para la supresión de ruido según la reivindicación 41.
82. Un sistema automático de reconocimiento de voz que comprende un dispositivo para la supresión de ruido según la reivindicación 41.
83. Un teléfono móvil que comprende un dispositivo para la supresión de ruido según la reivindicación 41.
ES04802378T 2003-12-29 2004-12-29 Procedimiento y dispositivo para la mejora de voz en presencia de ruido de fondo. Active ES2329046T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA002454296A CA2454296A1 (en) 2003-12-29 2003-12-29 Method and device for speech enhancement in the presence of background noise
CA2454296 2003-12-29

Publications (1)

Publication Number Publication Date
ES2329046T3 true ES2329046T3 (es) 2009-11-20

Family

ID=34683070

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04802378T Active ES2329046T3 (es) 2003-12-29 2004-12-29 Procedimiento y dispositivo para la mejora de voz en presencia de ruido de fondo.

Country Status (19)

Country Link
US (1) US8577675B2 (es)
EP (1) EP1700294B1 (es)
JP (1) JP4440937B2 (es)
KR (1) KR100870502B1 (es)
CN (1) CN100510672C (es)
AT (1) ATE441177T1 (es)
AU (1) AU2004309431C1 (es)
BR (1) BRPI0418449A (es)
CA (2) CA2454296A1 (es)
DE (1) DE602004022862D1 (es)
ES (1) ES2329046T3 (es)
HK (1) HK1099946A1 (es)
MX (1) MXPA06007234A (es)
MY (1) MY141447A (es)
PT (1) PT1700294E (es)
RU (1) RU2329550C2 (es)
TW (1) TWI279776B (es)
WO (1) WO2005064595A1 (es)
ZA (1) ZA200606215B (es)

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7113580B1 (en) * 2004-02-17 2006-09-26 Excel Switching Corporation Method and apparatus for performing conferencing services and echo suppression
US8438026B2 (en) * 2004-02-18 2013-05-07 Nuance Communications, Inc. Method and system for generating training data for an automatic speech recognizer
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
SG161223A1 (en) 2005-04-01 2010-05-27 Qualcomm Inc Method and apparatus for vector quantizing of a spectral envelope representation
ES2705589T3 (es) * 2005-04-22 2019-03-26 Qualcomm Inc Sistemas, procedimientos y aparatos para el suavizado del factor de ganancia
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US7366658B2 (en) * 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
US7930178B2 (en) * 2005-12-23 2011-04-19 Microsoft Corporation Speech modeling and enhancement based on magnitude-normalized spectra
US9185487B2 (en) * 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US7593535B2 (en) * 2006-08-01 2009-09-22 Dts, Inc. Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
WO2008106036A2 (en) 2007-02-26 2008-09-04 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
JP5186510B2 (ja) * 2007-03-19 2013-04-17 ドルビー ラボラトリーズ ライセンシング コーポレイション スピーチ明瞭度強化方法と装置
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
CA2690433C (en) * 2007-06-22 2016-01-19 Voiceage Corporation Method and device for sound activity detection and sound signal classification
ATE514163T1 (de) * 2007-09-12 2011-07-15 Dolby Lab Licensing Corp Spracherweiterung
JPWO2009051132A1 (ja) * 2007-10-19 2011-03-03 日本電気株式会社 信号処理システムと、その装置、方法及びそのプログラム
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8554551B2 (en) 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
CA2715432C (en) 2008-03-05 2016-08-16 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
CN101483042B (zh) * 2008-03-20 2011-03-30 华为技术有限公司 一种噪声生成方法以及噪声生成装置
US8606573B2 (en) * 2008-03-28 2013-12-10 Alon Konchitsky Voice recognition improved accuracy in mobile environments
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US8515097B2 (en) * 2008-07-25 2013-08-20 Broadcom Corporation Single microphone wind noise suppression
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
EP2416315B1 (en) * 2009-04-02 2015-05-20 Mitsubishi Electric Corporation Noise suppression device
BR112012000273A8 (pt) * 2009-07-07 2017-10-24 Koninl Philips Electronics Nv método de processamento de sinais respiratórios, sistema de processamento de sinais respiratórios, programa de computador ou produto de programa de computador para realizar o método e transportador de dados
WO2011049515A1 (en) * 2009-10-19 2011-04-28 Telefonaktiebolaget Lm Ericsson (Publ) Method and voice activity detector for a speech encoder
AU2010308597B2 (en) * 2009-10-19 2015-10-01 Telefonaktiebolaget Lm Ericsson (Publ) Method and background estimator for voice activity detection
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
BR122019025154B1 (pt) * 2010-01-19 2021-04-13 Dolby International Ab Sistema e método para gerar um sinal transposto de frequência e/ou estendido no tempo a partir de um sinal de áudio de entrada e meio de armazenamento
MX2012010350A (es) * 2010-03-09 2012-10-05 Fraunhofer Ges Forschung Aparato y metodo para manejar episodios de sonido de transitorios en señales de audio al cambiar el tono o velocidad de repeticion.
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
KR101173980B1 (ko) * 2010-10-18 2012-08-16 (주)트란소노 음성통신 기반 잡음 제거 시스템 및 그 방법
KR101176207B1 (ko) * 2010-10-18 2012-08-28 (주)트란소노 음성통신 시스템 및 음성통신 방법
US8831937B2 (en) * 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
ES2489472T3 (es) 2010-12-24 2014-09-02 Huawei Technologies Co., Ltd. Método y aparato para una detección adaptativa de la actividad vocal en una señal de audio de entrada
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
EP2663903A1 (de) * 2011-01-11 2013-11-20 Siemens Aktiengesellschaft Verfahren und vorrichtung zur filterung eines signals und regeleinrichtung für einen prozess
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
US20140114653A1 (en) * 2011-05-06 2014-04-24 Nokia Corporation Pitch estimator
TWI459381B (zh) 2011-09-14 2014-11-01 Ind Tech Res Inst 語音增強方法
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
ES2568640T3 (es) 2012-02-23 2016-05-03 Dolby International Ab Procedimientos y sistemas para recuperar de manera eficiente contenido de audio de alta frecuencia
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
CN104160443B (zh) 2012-11-20 2016-11-16 统一有限责任两合公司 用于音频数据处理的方法、设备和系统
CN103886867B (zh) * 2012-12-21 2017-06-27 华为技术有限公司 一种噪声抑制装置及其方法
CA2948015C (en) 2012-12-21 2018-03-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Comfort noise addition for modeling background noise at low bit-rates
US9495951B2 (en) * 2013-01-17 2016-11-15 Nvidia Corporation Real time audio echo and background noise reduction for a mobile device
CN110223704B (zh) * 2013-01-29 2023-09-15 弗劳恩霍夫应用研究促进协会 对音频信号的频谱执行噪声填充的装置
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP6303340B2 (ja) 2013-08-30 2018-04-04 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
DE102013111784B4 (de) 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
US9449615B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Externally estimated SNR based modifiers for internal MMSE calculators
US9449610B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Speech probability presence modifier improving log-MMSE based noise suppression performance
US9449609B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Accurate forward SNR estimation based on MMSE speech probability presence
CN104681034A (zh) 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
GB2523984B (en) 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
CN107086043B (zh) 2014-03-12 2020-09-08 华为技术有限公司 检测音频信号的方法和装置
US10176823B2 (en) * 2014-05-09 2019-01-08 Apple Inc. System and method for audio noise processing and noise reduction
KR20160000680A (ko) * 2014-06-25 2016-01-05 주식회사 더바인코퍼레이션 광대역 보코더용 휴대폰 명료도 향상장치와 이를 이용한 음성출력장치
JP6208377B2 (ja) 2014-07-29 2017-10-04 テレフオンアクチーボラゲット エルエム エリクソン(パブル) オーディオ信号における背景雑音の推定
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
US9947318B2 (en) * 2014-10-03 2018-04-17 2236008 Ontario Inc. System and method for processing an audio signal captured from a microphone
US9886966B2 (en) * 2014-11-07 2018-02-06 Apple Inc. System and method for improving noise suppression using logistic function and a suppression target value for automatic speech recognition
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
KR102015742B1 (ko) * 2015-12-01 2019-08-28 미쓰비시덴키 가부시키가이샤 음성 인식 장치, 음성 강조 장치, 음성 인식 방법, 음성 강조 방법 및 네비게이션 시스템
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
CN108022595A (zh) * 2016-10-28 2018-05-11 电信科学技术研究院 一种语音信号降噪方法和用户终端
CN106782504B (zh) * 2016-12-29 2019-01-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN111183476B (zh) * 2017-10-06 2024-03-22 索尼欧洲有限公司 基于子窗口序列内的rms功率的音频文件包络
US10771621B2 (en) * 2017-10-31 2020-09-08 Cisco Technology, Inc. Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications
RU2701120C1 (ru) * 2018-05-14 2019-09-24 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" Устройство для обработки речевого сигнала
US10681458B2 (en) * 2018-06-11 2020-06-09 Cirrus Logic, Inc. Techniques for howling detection
KR102327441B1 (ko) * 2019-09-20 2021-11-17 엘지전자 주식회사 인공지능 장치
US11217262B2 (en) * 2019-11-18 2022-01-04 Google Llc Adaptive energy limiting for transient noise suppression
US11264015B2 (en) 2019-11-21 2022-03-01 Bose Corporation Variable-time smoothing for steady state noise estimation
US11374663B2 (en) * 2019-11-21 2022-06-28 Bose Corporation Variable-frequency smoothing
CN111429932A (zh) * 2020-06-10 2020-07-17 浙江远传信息技术股份有限公司 语音降噪方法、装置、设备及介质
CN112634929B (zh) * 2020-12-16 2024-07-23 普联国际有限公司 一种语音增强方法、装置及存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161800A (en) * 1981-03-30 1982-10-05 Toshiyuki Sakai Voice information filter
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
US5432859A (en) * 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
JP3297307B2 (ja) * 1996-06-14 2002-07-02 沖電気工業株式会社 背景雑音消去装置
US6098038A (en) * 1996-09-27 2000-08-01 Oregon Graduate Institute Of Science & Technology Method and system for adaptive speech enhancement using frequency specific signal-to-noise ratio estimates
US6097820A (en) * 1996-12-23 2000-08-01 Lucent Technologies Inc. System and method for suppressing noise in digitally represented voice signals
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6044341A (en) * 1997-07-16 2000-03-28 Olympus Optical Co., Ltd. Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system
US6088668A (en) * 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
US7209567B1 (en) * 1998-07-09 2007-04-24 Purdue Research Foundation Communication system with adaptive noise suppression
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
US6363345B1 (en) * 1999-02-18 2002-03-26 Andrea Electronics Corporation System, method and apparatus for cancelling noise
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
JP4242516B2 (ja) 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US6925435B1 (en) 2000-11-27 2005-08-02 Mindspeed Technologies, Inc. Method and apparatus for improved noise reduction in a speech encoder
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate

Also Published As

Publication number Publication date
EP1700294B1 (en) 2009-08-26
AU2004309431C1 (en) 2009-03-19
TW200531006A (en) 2005-09-16
CN1918461A (zh) 2007-02-21
JP4440937B2 (ja) 2010-03-24
MY141447A (en) 2010-04-30
US8577675B2 (en) 2013-11-05
EP1700294A4 (en) 2007-02-28
BRPI0418449A (pt) 2007-05-22
KR100870502B1 (ko) 2008-11-25
PT1700294E (pt) 2009-09-28
CN100510672C (zh) 2009-07-08
AU2004309431B2 (en) 2008-10-02
CA2550905C (en) 2010-12-14
AU2004309431A1 (en) 2005-07-14
KR20060128983A (ko) 2006-12-14
HK1099946A1 (en) 2007-08-31
RU2329550C2 (ru) 2008-07-20
RU2006126530A (ru) 2008-02-10
JP2007517249A (ja) 2007-06-28
TWI279776B (en) 2007-04-21
DE602004022862D1 (de) 2009-10-08
MXPA06007234A (es) 2006-08-18
CA2454296A1 (en) 2005-06-29
ZA200606215B (en) 2007-11-28
EP1700294A1 (en) 2006-09-13
US20050143989A1 (en) 2005-06-30
WO2005064595A1 (en) 2005-07-14
ATE441177T1 (de) 2009-09-15
CA2550905A1 (en) 2005-07-14

Similar Documents

Publication Publication Date Title
ES2329046T3 (es) Procedimiento y dispositivo para la mejora de voz en presencia de ruido de fondo.
ES2678415T3 (es) Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica
JP2995737B2 (ja) 改良されたノイズ抑圧システム
US6289309B1 (en) Noise spectrum tracking for speech enhancement
ES2356503T3 (es) Método y sistema para reducir los efectos de los artefactos que producen ruido.
US7912567B2 (en) Noise suppressor
US6122610A (en) Noise suppression for low bitrate speech coder
US6415253B1 (en) Method and apparatus for enhancing noise-corrupted speech
US6453289B1 (en) Method of noise reduction for speech codecs
US8731913B2 (en) Scaled window overlap add for mixed signals
US20080033718A1 (en) Classification-Based Frame Loss Concealment for Audio Signals
CN101939783A (zh) 用于在带宽扩展系统中估计高频带能量的方法和装置
US8326621B2 (en) Repetitive transient noise removal
US20110125490A1 (en) Noise suppressor and voice decoder
US10249322B2 (en) Audio processing devices and audio processing methods
CA2990328A1 (en) Voice activity modification frame acquiring method, and voice activity detection method and apparatus
JP3960834B2 (ja) 音声強調装置及び音声強調方法
US9349383B2 (en) Audio bandwidth dependent noise suppression
CN111508512A (zh) 语音信号中的摩擦音检测
EP1635331A1 (en) Method for estimating a signal to noise ratio
EP2760022B1 (en) Audio bandwidth dependent noise suppression
Chessher A Robust Noise Spectral Estimation Algorithm for Speech Enhancement in Voice Devices
Govindasamy A psychoacoustically motivated speech enhancement system