ES2282096T3 - Optimizacion de voz con limitaciones de amplificacion segun la actividad de voz. - Google Patents

Optimizacion de voz con limitaciones de amplificacion segun la actividad de voz. Download PDF

Info

Publication number
ES2282096T3
ES2282096T3 ES00913413T ES00913413T ES2282096T3 ES 2282096 T3 ES2282096 T3 ES 2282096T3 ES 00913413 T ES00913413 T ES 00913413T ES 00913413 T ES00913413 T ES 00913413T ES 2282096 T3 ES2282096 T3 ES 2282096T3
Authority
ES
Spain
Prior art keywords
signal
minimum
amplification
data frame
priori
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00913413T
Other languages
English (en)
Inventor
Richard Vandervoort Cox
Ranier Martin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Application granted granted Critical
Publication of ES2282096T3 publication Critical patent/ES2282096T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

REIVINDICACIONES 1. Un método para optimizar una señal de voz para su uso en la codificación de voz en el que la señal de voz re- presenta tanto ruido de fondo como períodos de discurso arti-culado y se divide en varias tramas de datos; dicho método comprende varios pasos, a saber, aplicar una descomposición de subbandas a la señal de voz de una trama de datos a fin de generar varias señales de voz de subbanda; determinar si la señal de voz correspondiente a la trama de datos representa un discurso articulado; aplicar valores de amplificación in-dividuales a señales de voz de subbanda individuales, opera-ción en la que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa un discurso articulado es menor que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa únicamente ruido de fondo, y, por último, aplicar una síntesis de subbandas a las distintas señales de voz de subbanda.

Description

Optimización de voz con limitaciones de amplificación según la actividad de voz.
Ámbito del invento
El presente invento hace referencia al procesamiento de optimización de sistemas de codificación de voz (es decir, de compresión de voz), incluidos los sistemas de codificación de voz con una tasa de bits baja como el MELP.
Contexto del invento
Los codificadores de voz con una tasa de bits baja, como por ejemplo los codificadores paramétricos, han mejorado de manera significativa durante estos últimos años. Sin embargo, este tipo de codificadores aún carece de la potencia necesaria para funcionar correctamente en entornos acústicos difíciles. A modo de ejemplo, las perturbaciones que provocan los codificadores paramétricos con una tasa de bits baja pueden afectar a la comprensión del habla codificada si la relación señal a ruido (SNR) es media o baja.
Las pruebas realizadas muestran que es posible conseguir mejoras significativas en la codificación de voz si se combina un codificador con una tasa de bits baja con un preprocesador de optimización de la voz. Habitualmente, este tipo de preprocesadores está formado por tres elementos: un sistema de análisis/síntesis espectral [normalmente elaborado utilizando una transformada rápida de Fourier/transformada inversa rápida de Fourier (FFT/IFFT) mediante ventanas, un proceso de estimación del nivel de ruido y una computación espectral de la amplificación. Habitualmente, el proceso de estimación del nivel de ruido implica algún tipo de técnica de detección de actividad de voz o ajuste del mínimo espectral. La amplificación espectral computada se aplica sólo a las magnitudes Fourier de cada trama de datos o segmento de una señal de voz. Un ejemplo de preprocesador de optimización de la voz aparece en Y. Ephraim et al., "Speech Enhancement Using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator", IEEE Trans. Acoustics, Speech and Signal Processing, Vol. 33, pp 443-445, abril 1985, documento que se incorpora a la presente patente en su integridad mediante esta referencia. Como se sabe, la amplificación espectral comprende valores de amplificación individuales que deben aplicarse a los elementos de salida de las subbandas individuales mediante una transformada rápida de Fourier.
Podemos considerar una señal de voz como una representación de períodos de discurso articulado (es decir, períodos de "actividad de voz"), por una parte, y de pausas en el discurso, por la otra. Cuando se produce una pausa en un discurso articulado, la señal de voz sólo representa el ruido de fondo, mientras que durante los períodos de actividad de voz la señal de voz representa tanto el discurso articulado como el ruido de fondo. Los preprocesadores de optimización aplican una amplificación relativamente baja durante los periodos de pausa (en los que conviene atenuar el ruido) y una amplificación mayor durante los periodos de discurso articulado (a fin de reducir la atenuación de dicho discurso). Sin embargo, cambiar de una amplificación baja a una amplificación alta para reflejar, por ejemplo, la reanudación del discurso tras una pausa (y viceversa) puede tener como consecuencia la aparición de perturbaciones ruidosas "musicales" (o "tonales") estructuradas que resulten desagradables para la persona que escucha. Además, tanto los preprocesadores de optimización como los codificadores de voz que cuentan con dichos preprocesadores pueden afectar negativamente a la inteligibilidad del discurso.
Para resolver el problema del ruido musical estructurado, algunos preprocesadores de optimización limitan de manera uniforme los valores de amplificación que se aplican a todas las tramas de datos de la señal de voz. Habitualmente, esto se consigue estableciendo una SNR a priori que actúa como entrada funcional para la computación de la amplificación. Esta limitación de la amplificación evita que la amplificación aplicada en determinadas tramas de datos (por ejemplo, las que corresponden a pausas en el discurso) se reduzca demasiado, se produzcan cambios significativos en la amplificación entre tramas de datos y, en consecuencia, se genere ruido musical estructurado. Sin embargo, esta limitación de la amplificación no permite avanzar en la resolución del problema de inteligibilidad que originan el preprocesador de optimización o el codificador de voz. Algunos ejemplos de las soluciones citadas se revelan en los documentos US-5.839.101 y US-5.012.519.
Resumen del invento
El presente invento permite resolver los problemas de la técnica existente tanto para limitar el ruido musical estructurado como para aumentar la inteligibilidad del discurso. En caso de que se utilice un preprocesador de optimización, una forma de realización ilustrativa del invento permite determinar si la señal de voz que se debe procesar representa un discurso articulado o una pausa en el discurso y forma una única amplificación que es la que debe aplicarse a la señal de voz. Dicha amplificación es única en este contexto, ya que el valor más bajo que puede asumir (es decir, su limite inferior) se determina partiendo de si la señal de voz representa un discurso articulado o no. De conformidad con esta forma de realización, el límite inferior de la amplificación durante los períodos de pausa es más elevado que dicho límite inferior durante los períodos de discurso.
En esta forma de realización, la limitación de amplificación que se aplica a una trama de datos de la señal de voz se adapta a valores de SNR a priori. A su vez, dichos valores se limitan teniendo en cuenta dos factores: (a) si se detecta un discurso articulado en la trama de datos, y (b) una SNR a largo plazo para las tramas que representan el discurso. Para distinguir entre las tramas que contienen discurso articulado y aquéllas que contienen pausas en el discurso se puede utilizar un detector de actividad de voz. De este modo, el límite inferior de la SNR a priori puede computarse en forma de dos valores: un primer valor para una trama que representa el discurso articulado y un segundo valor, mayor que el primero, para la trama que represente una pausa en dicho discurso. Para suavizar el límite inferior de la SNR a priori, se utiliza un sistema recurrente de primer orden que permite realizar transiciones suaves entre los segmentos de la señal correspondientes al discurso activo y los segmentos correspondientes a las pausas en el mismo.
Asimismo, una forma de realización del invento también puede reducir el retraso en los datos de codificación de voz que genera la combinación formada por el preprocesador de optimización y el codificador de voz. Dicho retraso puede reducirse haciendo que el codificador funcione, al menos parcialmente, a partir de muestras incompletas de datos, al objeto de poder extraer, como mínimo, algunos parámetros de codificación. Normalmente, el retraso total que provocan el preprocesador y el codificador equivale a la suma del retraso del codificador y la longitud de las partes de las tramas que se superponen en el preprocesador de optimización. Sin embargo, el presente invento utiliza las muestras de datos avanzadas que almacenan algunos codificadores en una memoria intermedia de entrada para extraer los parámetros de codificación. Habitualmente, estas muestras tienen menor influencia en la calidad de la codificación de voz que otras muestras almacenadas en la memoria intermedia de entrada. Es por ello que, en algunos casos, el codificador no se ve obligado a esperar a recibir una trama de datos procesada, es decir, completa, del preprocesador, sino que puede extraer los parámetros de codificación a partir de muestras incompletas de datos almacenadas en la memoria intermedia de entrada. Al trabajar a partir de muestras de datos incompletas, el retraso provocado por el preprocesador de optimización y el codificador se puede reducir sin que ello afecte de manera significativa a la calidad de los datos codificados.
A modo de ejemplo, una manera de reducir el retraso generado por la combinación de un preprocesador de voz y un codificador de voz es multiplicar una trama de entrada utilizando una ventana de análisis y realzar dicha trama en el preprocesador de optimización. Tras realzar la trama, la mitad izquierda de la misma se multiplica utilizando una ventana de síntesis y la mitad derecha se multiplica utilizando una ventana de análisis inversa. La ventana de síntesis puede ser distinta de la de análisis, pero resulta preferible que sean iguales. A continuación, se añade la trama a la memoria intermedia de entrada del codificador de voz y se extraen los parámetros de codificación utilizando la trama. Una vez extraídos los parámetros de codificación, la mitad derecha de la trama que se encuentra en la memoria intermedia de entrada del codificador de voz se multiplica utilizando la ventana de análisis y síntesis y la trama se desplaza en la memoria intermedia antes de introducir una nueva trama. Las ventanas de análisis y la ventana de síntesis utilizadas para procesar la trama en la memoria intermedia de entrada del codificador pueden ser las que ya se han utilizado en el preprocesador de optimización o bien ser ligeramente distintas, por ejemplo en la raíz cuadrada de la ventana de análisis utilizada en el preprocesador. De este modo, el retraso provocado por el preprocesador se puede reducir hasta niveles muy bajos, por ejemplo 1-2 milisegundos.
Éste y otros aspectos del invento se pueden observar en la descripción que figura más adelante.
El propósito y los objetos del presente invento se consiguen mediante métodos y sistemas de conformidad con las reivindicaciones independientes 1, 3, 7, 9, 13 y 15. Para más información, conviene consultar el resto de reivindicaciones, es decir, las reivindicaciones dependientes.
Breve descripción de los dibujos
El invento se describe partiendo de los siguientes dibujos, a los que citaremos utilizando su número de referencia:
La figura 1 es un diagrama de bloques esquemático de una forma de realización ilustrativa del invento;
La figura 2 es un diagrama de flujos que representa los distintos pasos de un método para procesar la voz y otras señales de acuerdo con la forma de realización de la figura 1;
La figura 3 es un diagrama de flujos que representa los distintos pasos de un método para realzar las señales de voz de acuerdo con la forma de realización de la figura 1;
La figura 4 es un diagrama de flujos que representa los distintos pasos de un método para ajustar la SNR a priori de acuerdo con la forma realización de la figura 1;
La figura 5 es un diagrama de flujos que representa los distintos pasos de un método para aplicar un límite a SNR a priori a fin de utilizarlo en una computación de amplificación.
Descripción detallada A. Introducción a las formas de realización ilustrativas
Como suele ocurrir en la técnica de la codificación de voz, la forma de realización ilustrativa del presente invento se presenta dividida en varios bloques funcionales individuales, también denominados "módulos". Las funciones a las que representan dichos bloques se pueden realizar utilizando hardware compartido o específico, incluido, a título meramente enunciativo, hardware capaz de ejecutar software. A modo de ejemplo, las funciones de los bloques 1 a 5 presentados en la figura 1 se pueden realizar utilizando un solo procesador compartido (en este contexto, el término "procesador" no sólo hace referencia a hardware capaz de ejecutar software).
Las formas de realización ilustrativas pueden materializarse utilizando un procesador de señal digital (DSP) o hardware general de ordenador personal (PC) (ambos comercializados por un gran número de fabricantes), una memoria de sólo lectura o ROM para almacenar el software que realiza las operaciones explicadas más adelante y una memoria de acceso aleatorio o RAM para almacenar los resultados del DSP o el PC. También se pueden conseguir formas de realización con hardware VLSI (Integración a Muy Gran Escala), así como con circuitería VLSI personalizada en combinación con un circuito general de DSP/PC.
En el apéndice de software figura información sobre el software necesario para realizar las funciones presentadas en la figura 1.
B. La forma de realización ilustrativa
La figura 1 presenta un diagrama de bloques esquemático de una forma de realización ilustrativa 8 del invento. Tal y como muestra dicha figura, la forma de realización ilustrativa procesa las distintas señales que representan a la información de voz. Las señales citadas incluyen una señal de voz [que, a su vez, incluye un componente puramente de voz, s(k), y un componente de ruido de fondo, n(k)], tramas de datos de dicha señal, magnitudes espectrales, fases espectrales y voz codificada. En este ejemplo, la señal de voz se realza mediante un preprocesador de optimización de voz 8 y posteriormente se codifica mediante un codificador 7. En esta forma de realización ilustrativa, el codificador 7 es un codificador MELP de 2.400 bits/segundo y conforme a las normas MIL como el descrito en A. McCree et al., ``A 2.4 KBIT/S MELP Coder Candidate for the New U.S. Federal Standard*, Proc. IEEE Intl. Conf. Acoustics, Speech, Signal Processing (ICASSP), pp. 200-203, 1996, documento que se incorpora a la presente patente en su integridad mediante esta referencia. Las figuras 2, 3, 4 y 5 presentan diagramas de flujos de los procesos que realizan los módulos presentados en la figura 1.
1. Módulo de segmentación
La señal de voz s(k)+n(k) entra en un módulo de segmentación 1. El módulo de segmentación 1 divide la señal de voz en tramas de 256 muestras de datos de voz y ruido (véase paso 100 de la figura 2; se puede seleccionar el tamaño de la trama de datos, como por ejemplo 256 muestras, como en este caso) y aplica una ventana de análisis a las tramas antes de transformarlas en el dominio de la frecuencia (véase paso 200 de la figura 2). Como es bien sabido, aplicar la ventana de análisis a la trama afecta a la representación espectral de la señal de voz.
La ventana de análisis se estrecha en ambos extremos para reducir la diafonía entre las subbandas de la trama. Si dicho estrechamiento es prolongado la diafonía se reduce de manera significativa, pero al mismo tiempo se corre el riesgo de que la combinación 10 del preprocesador y el codificador provoque retrasos. El retraso inherente a las operaciones de preprocesamiento y codificación se puede reducir al mínimo si el avance trama a trama (o un múltiple del mismo) del preprocesador de optimización 8 se corresponde con el del codificador 7. Sin embargo, cuando el desplazamiento de las tramas sintetizadas en el preprocesador de optimización 8 aumenta y pasa de su semisuperposición característica (por ejemplo, 128 muestras) al desplazamiento característico del codificador 7 (por ejemplo, 180 muestras), las transiciones entre las tramas adyacentes de la señal de voz realzada \check{s}(k) se realizan de manera más brusca. Estas discontinuidades se producen porque el lugar donde la ventana de análisis atenúa en mayor grado la señal de entrada son los extremos de cada trama y los errores de estimación de la trama tienden a esparcirse al azar por la totalidad de la misma. Este fenómeno genera errores mayores en los límites de la trama, los cuales, a su vez, provocan discontinuidades que se suelen percibir sobre todo cuando la SNR no es la adecuada y pueden causar errores de estimación, por ejemplo.
Las discontinuidades se pueden reducir en gran medida utilizando una ventana de análisis y una de síntesis en el preprocesador de optimización 8. Por ejemplo, si la raíz cuadrada de la ventana de Tukey
100
da un buen rendimiento al utilizarla como ventana de análisis y como ventana de síntesis, M es el tamaño de la trama en las muestras y M_{0} es la longitud de los fragmentos de las tramas de síntesis adyacentes que se superponen.
A continuación, se realzan las tramas de los datos de voz analizadas o sintetizadas mediante ventanas. En general, se suele hacer referencia a esta operación como paso 300 de la figura 2 y, más en concreto, como la secuencia de pasos en las figuras 3, 4 y 5.
2. Módulo de transformación
Las tramas de la señal de voz analizadas o sintetizadas mediante ventanas salen hacia un módulo de transformación 2 que les aplica una transformada rápida de Fourier (FFT) convencional (véase paso 310 de la figura 3). Posteriormente, un módulo de estimación de ruido 3 utiliza las magnitudes espectrales que salen del módulo de transformación 2 para estimar el nivel de ruido que hay en la trama.
3. Módulo de estimación de ruido
El módulo de estimación de ruido 3 recibe las magnitudes espectrales del módulo de transformación 2 y genera una estimación de ruido que pasará al módulo de función de amplificación 4 (véase paso 320 de la figura 3). La estimación de ruido incluye SNR a priori y a posteriori computadas de manera convencional. El módulo de estimación de ruido 3 puede realizarse sin necesidad de ninguna técnica de estimación del ruido convencional, y también de acuerdo con la técnica de estimación del ruido presentada en la solicitud provisional estadounidense Nº 60/119.279, presentada el día 9 de febrero de 1999.
4. Módulo de función de amplificación
A fin de evitar distorsiones musicales y no distorsionar la forma espectral global de los sonidos de voz (lo cual podría afectar a la estimación de los parámetros espectrales), el límite inferior de la amplificación, G, debe fijarse en dos valores distintos, un primer valor para las tramas que representan únicamente el ruido de fondo (pausas en el discurso) y un valor inferior para las que representan el discurso activo. A continuación se explica cómo fijar dichos límites y la amplificación.
4.1 Limitar la SNR a priori
La función de amplificación G, determinada por el módulo 4, es una función de una SNR a priori \xi_{k} y una SNR a posteriori \gamma_{k} (a los que se ha hecho referencia con anterioridad). El módulo de función de amplificación 4 limita la SNR priori \xi_{k} según dos factores: según si la trama contiene sólo ruido o bien ruido y voz, y según una SNR a largo plazo estimada para los datos de voz. En caso de que una trama contenga sólo ruido (véase paso 331 de la figura 4), resulta preferible establecer un límite inferior previo \xi_{min1}(\lambda)=0,12 para la SNR a priori \xi_{x} (véase paso 332 de la figura 4). En caso de que la trama contenga ruido y voz, es decir, discurso activo, el límite inferior previo \xi_{min1}(\lambda) se
fijará en
(3)\xi_{min1}(\lambda) = 0,12 \ exp(-5)(0,5+SNR_{LT}(\lambda))^{0,65}
donde SNR_{LT} es la SNR a largo plazo para los datos de voz y \lambda es el índice de trama para la trama correspondiente (véase paso 333 de la figura 4). Sin embargo, \xi_{min1} no puede ser mayor de 0,25 (véase pasos 334 y 335 de la figura 4). La SNR_{LT} a largo plazo se determina dividiendo la potencia media de la señal de voz por la potencia media del ruido en varias tramas y restando 1 al resultado obtenido. Resulta preferible calcular la media de la señal de voz y el ruido a partir de un número de tramas que represente 1-2 segundos de la señal. En caso de que la SNR_{LT} sea inferior a 0, el límite se fijará en 0.
El límite inferior de la SNR a priori se determina a través de un filtro recursivo de primer orden:
(4)\xi_{min1}(\lambda)=0,9_{min}(\lambda-1)+0,1\xi_{min1}(\lambda)
Dicho filtro permite que la transición de los valores previos fijados para las tramas de voz a los fijados para las tramas de imágenes sea suave (véase paso 336 de la figura 4). A continuación, el límite inferior suavizado \xi_{min1}(\lambda) se utiliza como límite inferior para la SNR a priori \xi_{k}(\lambda) en la computación de amplificación, explicada más adelante.
4.2 Determinar la amplificación con una SNR a priori limitada
Tal y como es bien conocido en la técnica, la amplificación G utilizada en los preprocesadores de optimización de voz es una función de la SNR a priori \xi y la SNR a posteriori \gamma. Es decir, G_{k}=f(\xi_{x}(\lambda),\gamma_{x}(\lambda)), donde \lambda es el índice de la trama y k es el índice de las subbandas. De acuerdo con una forma de realización del presente invento, el límite inferior de la SNR a priori \xi_{min}(\lambda) se aplica a la SNR a priori (determinada por el módulo de estimación de ruido) del modo que sigue:
\xi_{x}(\lambda)=\xi_{x}(\lambda) \hskip0,3cm si \hskip0,3cm \xi_{x}(\lambda)>\xi_{x}(\lambda)
\xi_{x}(\lambda)=\xi_{min}(\lambda) \hskip0,3cm si \hskip0,3cm \xi_{x}(\lambda)\xi_{x}(\lambda)
(véase pasos 510 y 520 de la figura 5).
A partir de la estimación de la SNR a posteriori generada por el módulo de estimación de ruido 3 y la SNR a priori explicada con anterioridad, el módulo de función de amplificación 4 determina una función de amplificación G (véase paso 530 de la figura 5). Una función de amplificación adecuada para materializar esta forma de realización es un estimador convencional MMSE LSA (Minimum Mean Square Error Log-Spectral Amplitude Estimator) como el descrito en Y. Ephraim et al., "Speech Enhancement Using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator", IEEE Trans. Acoustics, Speech and Signal Processing, Vol. 33, pp. 443-445, abril 1985, documento que se incorpora en su integridad a la presente patente mediante esta referencia. A fin de conseguir mejor rendimiento, se puede utilizar un estimador MMSE LSA multiplicado como el descrito en D. Malah et al., "Tracking Speech Presence Uncertainty to Improve Speech Enhancement in Non-Stationary Noise Environments", Proc. ICASSP, 1999 para calcular las posibilidades de que se produzca un discurso. Dicho documento se incorpora en su integridad a la presente patente mediante esta referencia.
5. Aplicar la función de amplificación
La amplificación G se aplica a las magnitudes espectrales de ruido de la trama de datos que ha salido del módulo de transformación 2. Normalmente, esta operación se lleva a cabo multiplicando las magnitudes espectrales de ruido por la amplificación, tal y como muestra la figura 1 (véase 340 de la figura 3).
6. Módulo de transformación inversa
El módulo de transformación inversa 5 aplica una transformada rápida de Fourier (FFT) inversa a las amplitudes espectrales realzadas. A continuación, envía una trama de voz realzada a un módulo de añadido/superposición 6 (véase paso 350 de la figura 3).
7. Módulo de añadido/superposición; reducción del retraso
El módulo de añadido/superposición 6 sintetiza la trama recibida del módulo de transformación inversa 5 y envía la señal de voz realzada \check{s}(k) al codificador 7. Preferiblemente, el módulo de añadido/superposición 6 reduce el retraso generado por el preprocesador de optimización 8 multiplicando la "mitad" izquierda de la trama (por ejemplo, las 180 muestras más alejadas) utilizando una ventana de síntesis y la mitad derecha de la trama (por ejemplo, las 76 muestras más cercanas) utilizando una ventana de análisis inverso (véase paso 400 de la figura 2). La ventana de síntesis puede ser distinta de la ventana de análisis, pero resulta preferible que sean la misma. (Además, resulta preferible que ambas ventanas sean la misma que la ventana de análisis que aparece en el paso 200 de la figura 2.) El tamaño de las muestras de las mitades derecha e izquierda de la trama variará según el desplazamiento de datos que se produzca en la memoria intermedia de entrada del codificador 7, tal y como se indica más adelante (véase la explicación sobre el paso 800, situada más adelante). En este caso, los datos que se encuentran en la memoria intermedia de entrada del codificador 7 se desplazarán en 180 muestras, por lo que la mitad izquierda de la trama comprenderá 180 muestras. Dado que las ventanas de análisis y síntesis atenúan sobre todo los extremos de las tramas, si se multiplica la trama por el filtro de análisis inverso los errores de estimación en los extremos de las traumas aumentarán sobremanera. Por lo tanto, resulta más conveniente que haya un pequeño retraso de 2-3 ms para el filtro de análisis inverso no se multiplique por las 16-24 últimas muestras de la trama.
Una vez ajustada la trama a través de las ventanas de síntesis y análisis inverso, dicha trama pasará a la memoria intermedia de entrada (no mostrada) de entrada del codificador 7 (véase paso 500 de la figura 2). La parte izquierda de la trama en cuestión quedará superpuesta por la parte derecha de la trama anterior, la cual ya estará cargada en la memoria intermedia de entrada. La parte derecha de la trama actual no se superpondrá con ninguna otra trama o parte de una trama presente en la memoria intermedia de entrada. A continuación, el codificador 7 utilizará los datos de la memoria intermedia de entrada, incluida la nueva trama y los datos incompletos de la mitad derecha, para extraer los parámetros de codificación (véase paso 600 de la figura 2). Por ejemplo, un codificador MELP convencional extrae de los datos de su memoria intermedia de entrada 10 coeficientes de predicción lineal, 2 factores de amplificación, un 1 valor de tono, 5 valores de fuerza de la voz en paso de banda, 10 magnitudes de Fourier y un indicador aperiódico. Sin embargo, de la trama puede extraerse cualquier información que se desee. Teniendo en cuenta que el codificador MELP 7 no utiliza las últimas 60 muestras presentes en la memoria intermedia de entrada para analizar o computar el coeficiente de predicción lineal (LPC) del primer factor de amplificación, cualquier error en la optimización de alguna de estas muestras afectará más bien poco al rendimiento global del codificador 7.
Una vez el codificador 7 haya extraído los parámetros de codificación, la mitad derecha de la última trama (por ejemplo, las 76 muestras más cercanas) se multiplicará utilizando las ventanas de análisis y síntesis (véase el paso 700 de la figura 2). Resulta preferible que las ventanas de análisis y síntesis sean las mismas que las indicadas anteriormente en el paso 200; sin embargo, al igual que la raíz cuadrada de la ventana de análisis del paso 200, también pueden ser distintas.
A continuación, los datos de la memoria intermedia de entrada se desplazan para preparar la entrada de la siguiente trama, por ejemplo los datos se desplazan en 180 muestras (véase paso 800 de la figura 2). Tal y como hemos expuesto con anterioridad, las ventanas de análisis y síntesis pueden ser las mismas que la ventana de análisis utilizada en el preprocesador de optimización 8 o bien pueden ser distintas, por ejemplo la raíz cuadrada de la ventana de análisis. Si se desplaza la parte final de las operaciones de superposición o añadido a la memoria intermedia de entrada del codificador 7, el retraso originado por la combinación del preprocesador de optimización 8 y el codificador 7 puede reducirse a 2-3 milisegundos sin que se vean afectadas ni la resolución espectral ni la reducción de la diafonía en el preprocesador de optimización 8.
C. Disertación
Pese a que el invento se ha descrito a través de formas de realización concretas del mismo, los expertos en la materia pueden introducir un gran número de alternativas, modificaciones y variaciones que, para ellos, resultan evidentes. Por este motivo, las formas de realización preferentes del invento descritas en la presente patente pretenden ser meramente ilustrativas, no limitativas. Es decir, es posible realizar varios cambios sin que ello traicione el espíritu de la patente y, por lo tanto, quede fuera de su alcance.
A modo de ejemplo, la forma de realización ilustrativa del presente invento funciona con un codificador de voz convencional MELP, pero pueden utilizarse otros codificadores de voz.
La forma de realización ilustrativa del presente invento utiliza una FFT y una IFFT, pero pueden utilizarse otras transformadas, como por ejemplo una transformada discreta de Fourier (DFT) y una DFT inversa.
La técnica de estimación de ruido en la solicitud provisional de patente citada resulta adecuada para el módulo de estimación de ruido 3. Sin embargo, pueden utilizarse otros algoritmos, como por ejemplo los basados en la detección de la actividad de voz o en enfoque de ajuste del mínimo espectral, como por ejemplo el descrito en D. Malah et al., "Tracking Speech Presence Uncertainty to Improve Speech Enhancement in Non-Stationary Noise Environments", Proc. IEEE Intl. Conf. Acoustics, Speech, Signal Processing (ICASSP), 1999; o R. Martin, "Spectral Subtraction Based on Minimum Statistics", Proc. European Signal Processing Conference, vol. 1, 1994, documentos que se incorporan en su integridad a la presente patente mediante esta referencia.
Pese a que resulta preferible fijar el límite inferior previo \xi_{min1}(\lambda)=0,12 para la SNR a priori \xi_{x}, cuando una trama representa una pausa en el discurso (sólo ruido de fondo), dicho límite inferior previo \xi_{min1} puede fijarse en otros valores.
El proceso de limitación de la SNR priori es sólo uno de los mecanismos mediante los que se pueden limitar los valores de amplificación aplicados a las magnitudes espectrales de ruido, por lo que se pueden utilizar otros métodos. Resulta ventajoso que el límite inferior de los valores de amplificación para las tramas que representan actividad de voz sea inferior al límite inferior de los valores de amplificación para las tramas que representan únicamente ruido de fondo. Sin embargo, esta ventaja puede conseguirse de otras maneras, como por ejemplo limitando directamente los valores de amplificación, en lugar de limitar un antecedente funcional de la amplificación como es la SNR a priori.
Pese a que resulta preferible procesar las tramas de salida desde el módulo de transformación inversa 5 del preprocesador de optimización 8 mediante el proceso descrito con anterioridad a fin de reducir el retraso que genera el preprocesador de optimización 8, dicha reducción del retraso no resulta imprescindible para llevar a cabo la optimización. Es por ello que el preprocesador de optimización 8 puede realzar la señal de voz mediante la limitación de la amplificación tal y como ya se ha explicado de manera ilustrativa, por ejemplo limitando y adaptando la SNR a priori \xi_{K}. Del mismo modo, la reducción del retraso de la que también se ha hablado con anterioridad no requiere el uso del proceso de limitación de amplificación.
El retraso en otros tipos de operaciones de procesamiento de datos puede reducirse aplicando un primer proceso en la primera parte de una trama de datos, por ejemplo cualquier grupo de datos, y luego un segundo proceso a una segunda parte de la misma trama. Estos dos procesos podrían incluir cualquier procesamiento deseado, incluido el procesamiento de optimización. A continuación, la trama se combina con otros datos de modo que la primera parte de la trama se combine con otros datos. Se extrae información de la trama, como por ejemplo los parámetros de codificación, incluidos los datos combinados. Una vez extraída dicha información, se aplica un tercer proceso a la segunda parte de la trama a fin de prepararla para combinarla con datos de otra trama.

Claims (18)

1. Un método para optimizar una señal de voz para su uso en la codificación de voz en el que la señal de voz representa tanto ruido de fondo como períodos de discurso articulado y se divide en varias tramas de datos; dicho método comprende varios pasos, a saber, aplicar una descomposición de subbandas a la señal de voz de una trama de datos a fin de generar varias señales de voz de subbanda; determinar si la señal de voz correspondiente a la trama de datos representa un discurso articulado; aplicar valores de amplificación individuales a señales de voz de subbanda individuales, operación en la que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa un discurso articulado es menor que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa únicamente ruido de fondo, y, por último, aplicar una síntesis de subbandas a las distintas señales de voz de subbanda.
2. El método enunciado en la reivindicación 1 con el añadido de un paso, consistente en determinar los valores individuales de amplificación, operación en la que la amplificación mínima permitida es una función de una relación señal a ruido a priori mínima permitida.
3. Un método para optimizar una señal a fin de utilizarla en el procesamiento de voz en el que la señal se divide en tramas de datos y representa información de ruido de fondo e información de discurso articulado; dicho método comprende varios pasos, a saber, transformar la señal de voz de una trama de datos en magnitudes espectrales; determinar si la señal de una trama de datos representa información de discurso articulado, y, por último, aplicar un valor de amplificación a las magnitudes espectrales de la señal, operación en la que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa un discurso articulado es menor que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa únicamente ruido de fondo.
4. El método enunciado en la reivindicación 3 con el añadido de un paso, consistente en determinar el valor de la amplificación, operación en la que la amplificación mínima permitida es una función de una relación señal a ruido a priori mínima permitida.
5. El método enunciado en la reivindicación 4, en el que la relación señal a ruido a priori mínima permitida para una trama de datos se determina mediante el uso de un filtro recursivo de primer orden que combina la relación señal a ruido a priori mínima permitida para una trama de datos anterior con un límite inferior previo fijado para la relación señal a ruido a priori de la trama de datos en cuestión.
6. El método enunciado en la reivindicación 2, en el que la relación señal a ruido a priori mínima permitida para una trama de datos se determina mediante el uso de un filtro recursivo de primer orden que combina la relación señal a ruido a priori mínima permitida para una trama de datos anterior con un límite inferior previo fijado para la relación señal a ruido a priori de la trama de datos en cuestión.
7. Un sistema para optimizar la señal de voz para su uso en la codificación de voz en el que la señal de voz representa ruido de fondo y períodos de discurso articulado y se divide en distintas tramas de datos; el sistema citado comprende varios elementos, a saber, un módulo configurado para descomponer la señal de voz de una trama de datos a fin de generar distintas señales de voz de subbanda; un módulo configurado para determinar si la señal de voz correspondiente a la trama de datos representa un discurso articulado; un módulo configurado para aplicar valores de amplificación individuales a señales de voz de subbanda individuales, operación en la que la amplificación mínima que puede aplicarse para una trama de datos que se ha determinado que representa un discurso articulado es menor que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa únicamente ruido de fondo, y, por último, un módulo configurado para aplicar una síntesis de subbanda a las distintas señales de voz de subbanda.
8. El sistema enunciado en la reivindicación 7, con el añadido de un módulo configurado para determinar los valores de amplificación individuales en el que la amplificación mínima permitida es una función de una relación señal a ruido a priori mínima permitida.
9. Un sistema para optimizar una señal para su uso en el procesamiento de voz en el que dicha señal se divide en tramas de datos y representa información de ruido de fondo e información de períodos de discurso articulado; dicho sistema comprende varios elementos, a saber, un módulo configurado para transformar la señal de voz de una trama de datos en magnitudes espectrales; un módulo configurado para determinar si la señal de la trama de datos representa información de un discurso articulado, y, por último, un módulo configurado para aplicar un valor de amplificación a las magnitudes espectrales de la señal, operación en la que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa un discurso articulado es menor que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa únicamente ruido de fondo.
10. El sistema enunciado en la reivindicación 9 con el añadido de un módulo configurado para determinar el valor de la amplificación y en el que la amplificación mínima permitida es una función de una relación señal a ruido a priori mínima permitida.
\newpage
11. El sistema enunciado en la reivindicación 10, en el que la relación señal a ruido a priori mínima permitida para una trama de datos se determina mediante el uso de un filtro recursivo de primer orden que combina la relación señal a ruido a priori mínima permitida para una trama de datos anterior con un límite inferior previo fijado para la relación señal a ruido a priori de la trama de datos en cuestión.
12. El sistema enunciado en la reivindicación 8, en el que la relación señal a ruido a priori mínima permitida para una trama de datos se determina mediante el uso de un filtro recursivo de primer orden que combina la relación señal a ruido a priori mínima permitida para una trama de datos anterior con un límite inferior previo fijado para la relación señal a ruido a priori de la trama de datos en cuestión.
13. Un medio legible por ordenador que almacena instrucciones sobre cómo controlar un dispositivo de computación a fin de optimizar una señal de voz para su uso en la codificación de voz en las que la señal de voz representa ruido de fondo y períodos de discurso articulado y se divide en varias tramas de datos; al ser ejecutadas, dichas instrucciones hacen que el dispositivo de computación siga varios pasos, a saber, aplicar una descomposición de subbandas a la señal de voz de una trama de datos para generar distintas señales de voz de subbanda; determinar si la señal de voz correspondiente a cada trama de datos representa un discurso articulado; aplicar valores de amplificación individuales a las señales de voz de subbanda individuales, operación en la que la amplificación mínima que se puede aplicar a una trama de datos que se ha determinado que representa un discurso articulado es menor que la amplificación mínima que se puede aplicar a una trama de datos que se ha determinado que representa únicamente ruido de fondo, y, por último, aplicar una síntesis de subbanda a las distintas señales de voz de subbanda.
14. El medio legible por ordenador enunciado en la reivindicación 13 con la instrucción añadida de determinar los valores de amplificación individuales, operación en la que la amplificación mínima permitida es una función de una relación señal a ruido a priori mínima permitida.
15. Un medio leíble por ordenador que almacena instrucciones para controlar un dispositivo de computación a fin de optimizar una señal para su uso en el procesamiento de voz en el que dicha señal se divide en tramas de datos y representa información de ruido de fondo e información de periodos de discurso articulado; las instrucciones citadas incluyen transformar la señal de voz de una trama de datos en magnitudes espectrales; determinar si la señal de una trama de datos representa información de discurso articulado, y, por último, aplicar un valor de amplificación a las magnitudes espectrales de la señal, operación en la que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa un discurso articulado es menor que la amplificación mínima que puede aplicarse a una trama de datos que se ha determinado que representa únicamente ruido de fondo.
16. El medio leíble por ordenador enunciado en la reivindicación 15 con una instrucción añadida consistente en determinar el valor de la amplificación, operación en la que la amplificación mínima permitida es una función de una relación señal a ruido a priori mínima permitida.
17. El medio leíble por ordenador enunciado en la reivindicación 16, en el que la relación señal a ruido a priori mínima permitida para una trama de datos se determina mediante el uso de un filtro recursivo de primer orden que combina la relación señal a ruido a priori mínima permitida para una trama de datos anterior y un límite inferior previo para la relación señal a ruido a priori de la trama de datos en cuestión.
18. El medio leíble por ordenador enunciado en la reivindicación 17 en el que la relación señal a ruido a priori mínima permitida para una trama de datos se determina mediante el uso de un filtro recursivo de primer orden que combina la relación señal a ruido a priori mínima permitida para una trama de datos anterior y un límite inferior previo para la relación señal a ruido a priori de la trama de datos en cuestión.
ES00913413T 1999-02-09 2000-02-09 Optimizacion de voz con limitaciones de amplificacion segun la actividad de voz. Expired - Lifetime ES2282096T3 (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US11927999P 1999-02-09 1999-02-09
US119279P 1999-02-09
US499985P 2000-02-08
US09/499,985 US6604071B1 (en) 1999-02-09 2000-02-08 Speech enhancement with gain limitations based on speech activity

Publications (1)

Publication Number Publication Date
ES2282096T3 true ES2282096T3 (es) 2007-10-16

Family

ID=26817182

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00913413T Expired - Lifetime ES2282096T3 (es) 1999-02-09 2000-02-09 Optimizacion de voz con limitaciones de amplificacion segun la actividad de voz.

Country Status (12)

Country Link
US (2) US6604071B1 (es)
EP (2) EP1157377B1 (es)
JP (2) JP4173641B2 (es)
KR (2) KR100828962B1 (es)
AT (1) ATE357724T1 (es)
BR (1) BR0008033A (es)
CA (2) CA2476248C (es)
DE (1) DE60034026T2 (es)
DK (1) DK1157377T3 (es)
ES (1) ES2282096T3 (es)
HK (1) HK1098241A1 (es)
WO (1) WO2000048171A1 (es)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1143229A1 (en) * 1998-12-07 2001-10-10 Mitsubishi Denki Kabushiki Kaisha Sound decoding device and sound decoding method
GB2349259B (en) * 1999-04-23 2003-11-12 Canon Kk Speech processing apparatus and method
FR2797343B1 (fr) * 1999-08-04 2001-10-05 Matra Nortel Communications Procede et dispositif de detection d'activite vocale
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
JP3566197B2 (ja) 2000-08-31 2004-09-15 松下電器産業株式会社 雑音抑圧装置及び雑音抑圧方法
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
KR20030009516A (ko) * 2001-04-09 2003-01-29 코닌클리즈케 필립스 일렉트로닉스 엔.브이. 스피치 향상 장치
DE10150519B4 (de) * 2001-10-12 2014-01-09 Hewlett-Packard Development Co., L.P. Verfahren und Anordnung zur Sprachverarbeitung
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US7146316B2 (en) * 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
JP4336759B2 (ja) 2002-12-17 2009-09-30 日本電気株式会社 光分散フィルタ
JP4583781B2 (ja) * 2003-06-12 2010-11-17 アルパイン株式会社 音声補正装置
DE60303278T2 (de) * 2003-11-27 2006-07-20 Alcatel Vorrichtung zur Verbesserung der Spracherkennung
ES2294506T3 (es) * 2004-05-14 2008-04-01 Loquendo S.P.A. Reduccion de ruido para el reconocimiento automatico del habla.
US7649988B2 (en) * 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
KR100677126B1 (ko) * 2004-07-27 2007-02-02 삼성전자주식회사 레코더 기기의 잡음 제거 장치 및 그 방법
GB2429139B (en) * 2005-08-10 2010-06-16 Zarlink Semiconductor Inc A low complexity noise reduction method
KR100751927B1 (ko) * 2005-11-11 2007-08-24 고려대학교 산학협력단 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법 및 장치
US7778828B2 (en) 2006-03-15 2010-08-17 Sasken Communication Technologies Ltd. Method and system for automatic gain control of a speech signal
JP4836720B2 (ja) * 2006-09-07 2011-12-14 株式会社東芝 ノイズサプレス装置
US20080208575A1 (en) * 2007-02-27 2008-08-28 Nokia Corporation Split-band encoding and decoding of an audio signal
US7885810B1 (en) 2007-05-10 2011-02-08 Mediatek Inc. Acoustic signal enhancement method and apparatus
US20090010453A1 (en) * 2007-07-02 2009-01-08 Motorola, Inc. Intelligent gradient noise reduction system
BRPI0816792B1 (pt) * 2007-09-12 2020-01-28 Dolby Laboratories Licensing Corp método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo
CN100550133C (zh) 2008-03-20 2009-10-14 华为技术有限公司 一种语音信号处理方法及装置
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
US9197181B2 (en) * 2008-05-12 2015-11-24 Broadcom Corporation Loudness enhancement system and method
KR20090122143A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8914282B2 (en) * 2008-09-30 2014-12-16 Alon Konchitsky Wind noise reduction
US20100082339A1 (en) * 2008-09-30 2010-04-01 Alon Konchitsky Wind Noise Reduction
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
KR101211059B1 (ko) 2010-12-21 2012-12-11 전자부품연구원 보컬 멜로디 강화 장치 및 방법
US9210506B1 (en) * 2011-09-12 2015-12-08 Audyssey Laboratories, Inc. FFT bin based signal limiting
GB2523984B (en) 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
JP6361156B2 (ja) * 2014-02-10 2018-07-25 沖電気工業株式会社 雑音推定装置、方法及びプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3118473A1 (de) 1981-05-09 1982-11-25 TE KA DE Felten & Guilleaume Fernmeldeanlagen GmbH, 8500 Nürnberg Verfahren zur aufbereitung elektrischer signale mit einer digitalen filteranordnung
US4956808A (en) * 1985-01-07 1990-09-11 International Business Machines Corporation Real time data transformation and transmission overlapping device
JP2884163B2 (ja) * 1987-02-20 1999-04-19 富士通株式会社 符号化伝送装置
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
IL84948A0 (en) 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
GB8801014D0 (en) * 1988-01-18 1988-02-17 British Telecomm Noise reduction
US5479562A (en) * 1989-01-27 1995-12-26 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding audio information
US5297236A (en) * 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
KR100220862B1 (ko) * 1989-01-27 1999-09-15 쥬더 에드 에이. 고품질 오디오용 저속 비트 변환 코더, 디코더 및 인코더/디코더
DE3902948A1 (de) * 1989-02-01 1990-08-09 Telefunken Fernseh & Rundfunk Verfahren zur uebertragung eines signals
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JPH08506427A (ja) * 1993-02-12 1996-07-09 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 雑音減少
US5572621A (en) * 1993-09-21 1996-11-05 U.S. Philips Corporation Speech signal processing device with continuous monitoring of signal-to-noise ratio
US5485515A (en) 1993-12-29 1996-01-16 At&T Corp. Background noise compensation in a telephone network
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
JPH08237130A (ja) * 1995-02-23 1996-09-13 Sony Corp 信号符号化方法及び装置、並びに記録媒体
US5706395A (en) * 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
FI100840B (fi) 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
WO1998006090A1 (en) * 1996-08-02 1998-02-12 Universite De Sherbrooke Speech/audio coding with non-linear spectral-amplitude transformation
US5903866A (en) * 1997-03-10 1999-05-11 Lucent Technologies Inc. Waveform interpolation speech coding using splines
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor

Also Published As

Publication number Publication date
CA2362584A1 (en) 2000-08-17
HK1098241A1 (zh) 2007-07-13
US20020029141A1 (en) 2002-03-07
ATE357724T1 (de) 2007-04-15
DE60034026T2 (de) 2007-12-13
DK1157377T3 (da) 2007-04-10
JP2007004202A (ja) 2007-01-11
EP1157377B1 (en) 2007-03-21
JP4512574B2 (ja) 2010-07-28
CA2476248C (en) 2009-10-06
US6542864B2 (en) 2003-04-01
CA2362584C (en) 2008-01-08
KR100828962B1 (ko) 2008-05-14
JP4173641B2 (ja) 2008-10-29
KR100752529B1 (ko) 2007-08-29
DE60034026D1 (de) 2007-05-03
EP1724758A3 (en) 2007-08-01
BR0008033A (pt) 2002-01-22
EP1724758A2 (en) 2006-11-22
EP1157377A1 (en) 2001-11-28
WO2000048171A8 (en) 2001-04-05
US6604071B1 (en) 2003-08-05
KR20010102017A (ko) 2001-11-15
WO2000048171A1 (en) 2000-08-17
JP2002536707A (ja) 2002-10-29
CA2476248A1 (en) 2000-08-17
KR20060110377A (ko) 2006-10-24
EP1724758B1 (en) 2016-04-27
WO2000048171A9 (en) 2001-09-20

Similar Documents

Publication Publication Date Title
ES2282096T3 (es) Optimizacion de voz con limitaciones de amplificacion segun la actividad de voz.
ES2773794T3 (es) Aparato y procedimiento para estimar una diferencia de tiempos entre canales
ES2325151T3 (es) Sistema de comunicacion vocal y procedimiento para gestionar tramas perdidas.
KR101120913B1 (ko) 멀티 채널 오디오 신호를 인코딩하기 위한 장치 및 방법
Goh et al. Kalman-filtering speech enhancement method based on a voiced-unvoiced speech model
AU6007999A (en) Noise suppression for low bitrate speech coder
BRPI0621563A2 (pt) método e sistema para reduzir efeitos de artefatos que produzem ruìdo em um codec de voz
ES2342601T3 (es) Procesamiento digital diferenciado de la voz y de la musica, la filtracion del ruido, la creacion de efectos especiales asi como un dispositivo para la aplicacion de dicho procedimiento.
RU2669079C2 (ru) Кодер, декодер и способы для обратно совместимого пространственного кодирования аудиообъектов с переменным разрешением
KR20080103113A (ko) 신호 인코딩
ES2951107T3 (es) Método y dispositivo de generación de ruido de confort
US6223151B1 (en) Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders
US7146309B1 (en) Deriving seed values to generate excitation values in a speech coder
US7103539B2 (en) Enhanced coded speech
EP0655731B1 (en) Noise suppressor available in pre-processing and/or post-processing of a speech signal
WO2004097795A2 (en) Adaptive voice enhancement for low bit rate audio coding
KR20000019198A (ko) 이동 전화기의 음성인식을 위한 음성 검출 방법 및 장치