ES2277861T3 - Supresion de ruido. - Google Patents

Supresion de ruido. Download PDF

Info

Publication number
ES2277861T3
ES2277861T3 ES00977618T ES00977618T ES2277861T3 ES 2277861 T3 ES2277861 T3 ES 2277861T3 ES 00977618 T ES00977618 T ES 00977618T ES 00977618 T ES00977618 T ES 00977618T ES 2277861 T3 ES2277861 T3 ES 2277861T3
Authority
ES
Spain
Prior art keywords
noise
voice
signal
spectrum
background noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00977618T
Other languages
English (en)
Inventor
Ville-Veikko Mattila
Erkki Paajanen
Antti Vahatalo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of ES2277861T3 publication Critical patent/ES2277861T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Plural Heterocyclic Compounds (AREA)
  • Surgical Instruments (AREA)
  • Inorganic Insulating Materials (AREA)
  • Superconductors And Manufacturing Methods Therefor (AREA)
  • Materials For Medical Uses (AREA)
  • Control Of Motors That Do Not Use Commutators (AREA)
  • Telephone Function (AREA)

Abstract

Supresor de ruido (300) para suprimir ruido en una señal (314) que contiene ruido de fondo, comprendiendo el supresor de ruido un estimador para realizar estimaciones de un espectro de ruido de fondo (332, 334), en el que se usa una indicación de por lo menos uno de entre una unidad de transmisión discontinua (36) y un detector de errores de canal (38) para controlar la estimación del espectro del ruido de fondo.

Description

Supresión de ruido.
La presente invención se refiere a un supresor de ruido y a un método de supresión de ruido. Se refiere particularmente a un terminal móvil que incorpora un supresor de ruido para suprimir ruido en una señal de voz. Uno de los supresores de ruido según la invención se puede usar para suprimir ruido acústico de fondo, particularmente en un terminal móvil que funcione en una red celular.
Una de las finalidades de la supresión de ruido o la mejora de la voz en un terminal telefónico móvil es reducir el impacto del ruido ambiente sobre una señal de voz y mejorar de este modo la calidad de la comunicación. En el caso de una señal de enlace ascendente (transmisión, TX), se desea también minimizar los efectos negativos provocados por este ruido en el proceso de codificación de la voz.
En una comunicación de tipo presencial, el ruido acústico de fondo es molesto para el oyente y hace que resulte más difícil entender la voz. La inteligibilidad se mejora cuando un hablante alza la voz de manera que se sitúe a un volumen mayor que el ruido de fondo. En el caso de la telefonía, el ruido de fondo resulta problemático debido a que no existe ninguna información adicional proporcionada por expresiones y gestos faciales.
En la telefonía digital, una señal de voz se convierte en primer lugar en una secuencia de muestras digitales en un conversor analógico-a-digital (A/D) y a continuación se comprime para su transmisión usando un códec de voz. El término códec se usa para describir un par codificador/decodificador de voz. En la presente descripción, la expresión "codificador de voz" se usa para indicar el lado codificador del códec de voz y la expresión "decodificador de voz" se usa para indicar las funciones de decodificación del códec de voz. Debería apreciarse que un códec de voz genérico se puede implementar en forma de una sola unidad funcional, o en forma de elementos independientes que implementen las operaciones de codificación y de decodificación.
En la telefonía digital, el efecto nocivo del ruido de fondo puede ser importante. Esto es debido al hecho de que los códecs de voz están optimizados en general para obtener una compresión eficaz y una reconstrucción aceptable de la voz y su rendimiento puede verse perjudicado si hay ruido presente en la señal de voz, o si se producen errores en la transmisión o la recepción de la voz. Adicionalmente, la presencia del propio ruido puede conducir a una distorsión en la señal del ruido de fondo cuando la misma se codifica y se transmite.
El rendimiento deteriorado de un códec de voz reduce tanto la inteligibilidad de la voz transmitida como su calidad subjetiva. La distorsión de la señal de ruido de fondo transmitida hace que se deteriore la calidad de la señal transmitida, consiguiendo que la misma resulte más molesta de escuchar y convirtiendo la información contextual en menos reconocible al cambiar la naturaleza de la señal del ruido de fondo. Consecuentemente, los trabajos en el campo de la mejora de la voz se han concentrado en estudiar el efecto del ruido sobre el rendimiento de la codificación de la voz y en producir métodos de preprocesado para reducir el impacto del ruido sobre los códecs de voz.
Los problemas antes descritos se refieren a disposiciones en las cuales hay presente solamente un micrófono para proporcionar solamente una señal. En dichas disposiciones, se proporciona un supresor de ruido el cual puede interpretar la señal de un solo canal para decidir qué partes de la misma representan la voz esencial y qué partes representan el ruido.
Cuando un terminal móvil digital recibe una señal de voz codificada, la misma es decodificada por la parte del códec de voz del terminal correspondiente a la de codificación y es suministrada a un altavoz o auricular para que pueda ser oída por el usuario del terminal. En el camino de la decodificación de la voz se puede proporcionar un supresor de ruido, después del decodificador de voz, para reducir el componente de ruido en la señal de voz recibida y decodificada. No obstante, en condiciones ruidosas el rendimiento del decodificador de voz puede verse afectado negativamente, dando como resultado uno o más de los siguientes efectos:
1. El componente de voz de la señal puede sonar menos natural o áspero, ya que la información crítica requerida por el códec de voz para decodificar correctamente la señal de voz se ve modificada por la presencia de ruido.
2. El ruido de fondo puede sonar antinatural debido a que los códecs están optimizados en general para comprimir la voz en contraposición al ruido. Típicamente, esta situación da origen a un aumento de la periodicidad en el componente del ruido de fondo y puede ser suficientemente grave como para provocar la pérdida de información contextual transportada por la señal del ruido de fondo.
La información sobre una señal de voz codificada se puede perder o dañar además durante la transmisión y la recepción, por ejemplo, debido a errores en el canal de transmisión. Esta situación puede dar origen a un deterioro adicional en la salida del decodificador de voz, provocando que se pongan de manifiesto perturbaciones adicionales en la señal de voz decodificada. Cuando se usa un supresor de ruido en el camino de decodificación de la voz, después de un decodificador de voz, un rendimiento no óptimo del decodificador de voz puede provocar a su vez que el supresor de ruido funcione con un comportamiento inferior al óptimo.
Por esta razón, se debe tener especial cuidado cuando se implementan supresores de ruido destinados a actuar sobre señales de voz decodificadas. En particular, deben equilibrarse dos factores en conflicto. Si el supresor de ruido proporciona demasiada atenuación del ruido, esta situación puede revelar el deterioro de la calidad de la voz provocado por el códec de voz. No obstante, debido a las propiedades intrínsecas de los códecs de voz típicos, los cuales están optimizados para la codificación y decodificación de la voz, el ruido de fondo decodificado puede sonar más molesto que la señal de ruido original y por lo tanto el mismo se debería atenuar lo máximo posible. De este modo, en la práctica, se observa que un nivel de reducción de ruido ligeramente inferior puede ser óptimo para señales de voz decodificadas, en comparación con el correspondiente que se puede aplicar a las señales de voz antes de la codificación.
En general es deseable que cuando se use la supresión de ruido durante la codificación y/o decodificación de la voz, la misma debería reducir el nivel de ruido de fondo, minimizar la distorsión de la voz provocada por el proceso de reducción del ruido y mantener la naturaleza original del ruido de fondo de entrada.
A continuación haciendo referencia a la Figura 1 se describirá una forma de realización de un terminal móvil que comprende un supresor de ruido según la técnica anterior. El terminal móvil y el sistema inalámbrico con el cual se comunica el primero funcionan según la normativa del Sistema Global para Telecomunicaciones Móviles (GSM). La Figura 1 muestra un terminal móvil 10 el cual comprende una vía de transmisión (codificación de la voz) 12 y una vía de recepción (decodificación de la voz) 14.
En la vía de transmisión (codificación de la voz), un micrófono 16 capta una señal de voz, la misma es muestreada por un conversor analógico-a-digital (A/D) 18 y se suprime el ruido en un supresor de ruido 20 para producir una señal mejorada. Esta opción requiere realizar una estimación del espectro del ruido de fondo de manera que se pueda suprimir el ruido de fondo de la señal muestreada. Un supresor de ruido típico funciona en el dominio de la frecuencia. En primer lugar la señal en el dominio del tiempo se transforma al dominio de la frecuencia, lo cual se puede llevar a cabo eficazmente usando una Transformada Rápida de Fourier (FFT). En el dominio de la frecuencia, debe diferenciarse la actividad vocal con respecto al ruido de fondo, y cuando no exista actividad vocal, se realiza una estimación del espectro del ruido de fondo. A continuación, se calculan coeficientes de ganancia de supresión de ruido basándose en el espectro de la señal de entrada actual y en la estimación del ruido de fondo. Finalmente, la señal se transforma nuevamente al dominio del tiempo usando una FFT inversa (IFFT).
La señal mejorada (con el ruido suprimido) es codificada por un codificador de voz 22 para extraer un conjunto de parámetros de voz los cuales se codifican seguidamente en el canal en un codificador de canal 24 en el que se añade redundancia a la señal de voz codificada para proporcionar cierto grado de protección contra errores. A continuación, la señal resultante se convierte en sentido ascendente en una señal de radiofrecuencia (RF) y es transmitida por una unidad transmisora/receptora 26. La unidad transmisora/receptora 26 comprende un filtro dúplex (no mostrado) conectado a una antena para posibilitar que se produzca tanto la transmisión como la recepción.
En el documento publicado WO97/22116 se describe un supresor de ruido adecuado para ser usado en el terminal móvil de la Figura 1.
Para alargar la vida de la batería, en los sistemas de telecomunicaciones móviles se aplican típicamente diferentes tipos de modos de funcionamiento de baja potencia, dependientes de la señal de entrada. A estas disposiciones se les hace referencia habitualmente como transmisión discontinua (DTX). La idea básica de la DTX es interrumpir el proceso de codificación/decodificación de la voz en los periodos en los que no hay voz. La DTX está destinada además a limitar la cantidad de datos que se transmite a través del enlace de radiocomunicaciones durante las pausas de la voz. Ambas medidas tienden a reducir la cantidad de potencia consumida por el dispositivo transmisor. Típicamente, como sustitución del ruido de fondo real se produce algún tipo de señal de ruido de confort, destinada a recordar el ruido de fondo en el extremo transmisor. En la técnica son bien conocidos los manejadores DTX tales como los códecs GSM de voz de Velocidad Completa Mejorada (EFR), Velocidad Completa y Velocidad Mitad.
Haciendo referencia nuevamente a la Figura 1, el codificador de voz 22 está conectado a un manejador DTX de transmisión (TX) 28. El manejador DTX TX 28 recibe una entrada de un detector de actividad vocal (VAD) 30 el cual indica si existe un componente de voz en la señal con ruido suprimido proporcionada como salida del bloque supresor de ruido 20. El VAD 30 es básicamente un detector de energía. Recibe una señal filtrada, compara la energía de la señal filtrada con un umbral e indica voz siempre que se supera el umbral. De este modo, indica si cada trama producida por el codificador de voz 22 contiene ruido con presencia de voz o ruido sin presencia de voz. La dificultad más significativa en la detección de la voz en una señal generada por un terminal móvil es que los entornos en los cuales se usan dichos terminales conducen con frecuencia a relaciones voz/ruido bajas. La precisión del VAD 30 se mejora usando un filtrado para aumentar la relación voz/ruido antes de tomar la decisión sobre la presencia de la voz.
De entre todos los entornos en los cuales se usan los teléfonos móviles, las peores relaciones voz/ruido se encuentran en general en los vehículos en movimiento. No obstante, si el ruido es relativamente estable durante periodos prolongados, es decir, si el espectro en amplitud del ruido no varía mucho con el tiempo, es posible usar un filtro adaptativo con coeficientes adecuados para eliminar gran parte del ruido del vehículo.
Los niveles de ruido en entornos en los que se usan los terminales móviles pueden cambiar constantemente. También puede cambiar el contenido frecuencial (espectro) del ruido, y el mismo puede variar considerablemente dependiendo de las circunstancias. Debido a estos cambios, el umbral y los coeficientes del filtro adaptativo del VAD 30 se deben ajustar constantemente. Para proporcionar una detección fiable, el umbral debe estar suficientemente por encima del nivel de ruido para evitar que dicho ruido se identifique falsamente como voz, aunque no tan por encima como para que las partes de la voz de nivel bajo se identifiquen como ruido. El umbral y los coeficientes del filtro adaptativo se actualizan únicamente cuando no hay presencia de voz. Evidentemente, no es razonable que el VAD 30 actualice estos valores basándose en su propia decisión sobre la presencia de voz. Por esta razón, esta adaptación únicamente se produce cuando la señal es sustancialmente estable en el dominio de la frecuencia, pero no presenta el componente de altura tonal inherente en la voz sonora. Para evitar la adaptación durante los tonos de información se usa además un detector de tonos.
Se usa un mecanismo adicional para garantizar que el ruido de nivel bajo (el cual con frecuencia no es estable durante periodos prolongados) no se detecta como voz. En este caso, se usa un umbral fijo adicional de manera que las tramas de entrada que presentan una potencia de trama por debajo del umbral se interpretan como tramas de ruido.
Se usa un periodo de bloqueo del VAD para eliminar el recorte de las ráfagas centrales de la voz de bajo nivel. El bloqueo se añade únicamente a las ráfagas de voz que superan una cierta duración para evitar picos de ruido prolongados. En este aspecto el funcionamiento de un detector de actividad vocal es conocido en la técnica.
La salida del VAD 30 es típicamente una bandera binaria la cual se usa en el manejador DTX TX 28. Si en una señal se detecta voz, se continúa con su transmisión. Si no se detecta voz, se detiene la transmisión de la señal con ruido suprimido hasta que se detecte nuevamente voz.
En la mayoría de sistemas de telecomunicaciones móviles, la DTX se aplica en su mayor parte en la conexión del enlace ascendente ya que la codificación y transmisión de la voz consume típicamente mucha más energía que la recepción y la decodificación de la voz, y debido a que el terminal móvil depende típicamente de la energía limitada almacenada en su batería. Durante periodos en los cuales no se produce ninguna transmisión de una señal que supuestamente transporta voz, se genera ruido de confort para proporcionar al oyente la ilusión de que la señal es, de hecho, continua. Tal como se describe de forma más detallada posteriormente, en algunos sistemas de telefonía celular, se genera ruido de confort en el terminal receptor, basándose en la información recibida desde el terminal transmisor que describe las características del ruido en dicho terminal transmisor.
En general, en el decodificador de voz se proporciona una bandera explícita que indica si el modo de funcionamiento DTX está activado o no. Este es el caso correspondiente, por ejemplo, a la totalidad de los códecs de voz GSM. No obstante, existen otros casos, por ejemplo, redes Celulares Digitales Personales (PDC), en las que se debe activar un modo de repetición de tramas en el supresor de ruido comparando las tramas de entrada con las anteriores y estableciendo una bandera de conmutación accionada por voz (VOX) si las tramas consecutivas son idénticas. Además, en una conexión móvil-a-móvil, en la conexión del enlace descendente no se proporciona información sobre la aparición de la DTX en la conexión del enlace ascendente.
En algunos códecs de voz, tales como el códec EFR GSM, la decisión de desactivar la transmisión durante las pausas de la voz se toma en un manejador DTX del codificador de voz. Al final de una ráfaga de voz, el manejador DTX usa unas pocas tramas consecutivas para generar una trama descriptor de silencio (SID) la cual se usa para transportar parámetros del ruido de confort que describen estimaciones de las características del ruido de fondo para el decodificador. Una trama descriptor de silencio (SID) está caracterizada por una palabra de código SID.
Después de la transmisión de una trama SID, la transmisión de radiocomunicaciones se corta y una bandera de voz (bandera SP) se fija a cero. En cualquier otro caso, la bandera SP se fija a 1 para indicar que se produce una transmisión de radiocomunicaciones. La trama SID es recibida por el decodificador de voz, el cual a continuación genera ruido con un perfil espectral correspondiente a las propiedades descritas en la trama SID. Hacia el decodificador se transmiten actualizaciones ocasionales de la trama SID para mantener una correspondencia entre el ruido de fondo en el terminal transmisor y el ruido de confort generado en el terminal receptor. Por ejemplo, en un sistema GSM, se envía una trama SID nueva una vez cada 24 tramas de la transmisión normal. La entrega de actualizaciones ocasionales de trama SID según la manera mencionada no solamente permite la generación de ruido de confort con una precisión aceptable, sino que además reduce significativamente la cantidad de información que se debe transmitir a través del enlace de radiocomunicaciones. Esta opción reduce el ancho de banda requerido para la transmisión y colabora con el uso eficaz de los recursos de radiocomunicaciones.
En la vía de recepción (decodificación de la voz) 14 del terminal móvil, la unidad transmisora/receptora 26 recibe una señal RF y la misma se convierte en sentido descendente desde RF a una señal de banda base. La señal de banda base se decodifica del canal por medio de un decodificador de canal 32. Si el decodificador de canal detecta voz en la señal decodificada del canal, la señal se decodifica en voz por medio de un decodificador de voz 34.
El terminal móvil comprende además una unidad de tratamiento de tramas defectuosas 38 para tratar tramas defectuosas (es decir, dañadas). El Subsistema de Radiocomunicaciones (RSS) señala una trama de tráfico defectuosa fijando a 1 una Indicación de Trama Defectuosa (BFI). Si en el canal de transmisión se producen errores, una decodificación normal de tramas de voz perdidas o erróneas daría origen a que el oyente escuchase ruidos molestos. Para tratar este problema, la calidad subjetiva de las tramas de voz perdidas se mejora típicamente sustituyendo las tramas defectuosas bien por una repetición o bien por una extrapolación de una trama o tramas de voz buenas anteriores. Esta sustitución proporciona una continuidad de la señal de voz y viene acompañada por una atenuación gradual del nivel de salida, dando como resultado el silenciamiento de la salida en un periodo de tiempo bastante corto. Una trama de tráfico buena la señala el subsistema de radiocomunicaciones con una BFI de 0.
En el manejador de Transmisión Discontinua (DTX) de Recepción (RX) se encuentra una forma de realización de una unidad de tratamiento de tramas defectuosas 38 según la técnica anterior. La unidad de tratamiento de tramas defectuosas lleva a cabo la sustitución y el silenciamiento de las tramas cuando el subsistema de radiocomunicaciones indica que se han perdido una o más tramas de voz o del tipo Descriptor de Silencio (SID). Por ejemplo, si se pierden tramas SID, la unidad de tratamiento de tramas defectuosas notifica este hecho al decodificador de voz y el decodificador de voz típicamente sustituye una trama SID defectuosa por la última trama válida. Esta trama se repite y se atenúa de forma gradual exactamente como en el caso de una trama de voz repetida, para proporcionar continuidad en el componente de ruido de la señal. Alternativamente, en lugar de una repetición directa se usa una extrapolación de una trama anterior.
La finalidad de la sustitución de las tramas es ocultar el efecto de las tramas perdidas. La finalidad de la atenuación de la salida cuando se pierden varias tramas es indicar al usuario el posible corte del enlace (canal) de radiocomunicaciones y evitar la generación de sonidos posiblemente molestos, los cuales se pueden generar a partir del procedimiento de sustitución de tramas. No obstante, la sustitución y la atenuación del ruido de fondo habitualmente poco informativo en las tramas perdidas afecta a la calidad percibida de la voz con ruido o al puro ruido de fondo. Incluso a niveles bastante bajos del ruido de fondo, una atenuación rápida del mismo en las tramas perdidas da origen a la impresión de una reducción notable de la fluidez de la señal transmitida. Esta impresión se acentúa si el volumen del ruido de fondo es mayor.
La señal producida por el decodificador de voz, ya sea voz decodificada, ruido de confort o tramas repetidas y atenuadas, es transformada del formato digital al analógico por medio de un conversor digital-a-analógico 40 y a continuación se reproduce a través de un altavoz o auricular 42, por ejemplo, para que sea escuchada por un oyente.
Según uno de los aspectos de la invención, se proporciona un supresor de ruido para suprimir ruido en una señal que contiene ruido de fondo, comprendiendo el supresor de ruido un estimador para realizar estimaciones de un espectro de ruido de fondo en el cual se usa una indicación de por lo menos uno de entre una unidad de transmisión discontinua y un detector de errores de canal para controlar la estimación del espectro del ruido de fondo.
Preferentemente, la indicación la proporciona un decodificador de voz en un camino de enlace ascendente en la red.
Preferentemente, el supresor de ruido suprime el ruido en una señal proporcionada por el decodificador de voz.
Preferentemente, la indicación surge en un decodificador de canal y es tratada por el decodificador de voz. Preferentemente, la indicación es tratada por una unidad de tratamiento de tramas defectuosas en el decodificador de voz.
Preferentemente, el supresor de ruido proporciona su señal con ruido suprimido a un codificador de voz.
Preferentemente, el supresor de ruido usa una bandera o una indicación la cual indica que las tramas individuales que se usan para transmitir la señal a través del canal son erróneas.
Preferentemente, la actualización del espectro del ruido de fondo estimado se suspende durante periodos en los cuales el detector de errores de canal detecta errores de canal en la señal. De esta manera, en la producción de la estimación del ruido no se usan las partes de la señal que contienen errores de canal o partes de la señal que están siendo generadas para enmascarar o mitigar los errores de canal.
Preferentemente, el supresor de ruido comprende un detector de actividad vocal para controlar la estimación del espectro de ruido de fondo. Preferentemente, el espectro del ruido de fondo estimado se actualiza cuando el detector de actividad vocal indica que no hay voz. Preferentemente, el estado del detector de actividad vocal y/o su memoria de decisiones anteriores de presencia/no presencia de voz se congela/congelan cuando el detector de errores de canal detecta errores de canal.
Preferentemente, un generador de ruido de confort genera ruido de confort durante periodos de tiempo en los cuales no se está transmitiendo la señal. Preferentemente, la actualización del espectro del ruido de fondo estimado se suspende durante periodos en los cuales la unidad de transmisión discontinua está indicando que no se está transmitiendo la señal. De esta manera, el ruido de confort no se usa en la producción de la estimación del ruido.
La expresión "ruido de confort" significa un ruido generado para representar ruido de fondo sin que sea el ruido de fondo que se produce realmente en el momento en el que se está generando. Por ejemplo, el ruido de confort puede ser una estimación de ruido realizada a partir del análisis del ruido de fondo antes de generar el ruido de confort, puede ser un ruido aleatorio o seudoaleatorio o puede ser una combinación de una estimación de ruido a partir del análisis del ruido de fondo y de ruido aleatorio o seudoaleatorio.
\newpage
En una de las formas de realización de la invención en la cual el supresor de ruido se proporciona en un terminal móvil, el mismo puede estar ubicado de manera que proporcione voz con ruido suprimido a un codificador y reciba voz con ruido suprimido de un decodificador. Evidentemente, el codificador y el decodificador pueden comprender un códec.
Preferentemente, el supresor de ruido se encuentra en un camino inalámbrico. El mismo puede estar en un camino inalámbrico de enlace descendente desde una red de comunicaciones a un terminal de comunicaciones.
Según otro de los aspectos de la invención se proporciona un método de supresión de ruido para suprimir ruido en una señal que contiene ruido de fondo, que comprende las siguientes etapas:
se realiza una estimación de un espectro de ruido de fondo;
se usa el espectro de ruido de fondo para suprimir ruido en la señal;
se recibe una indicación para indicar el funcionamiento de por lo menos uno de entre una unidad de transmisión discontinua y un detector de errores de canal; y
se usa la indicación para controlar la estimación del espectro del ruido de fondo.
Según otro de los aspectos de la invención se proporciona un terminal móvil que comprende un supresor de ruido para suprimir ruido en una señal que contiene ruido de fondo, comprendiendo el supresor de ruido un estimador para realizar una estimación de un espectro de ruido de fondo, en el cual se usa una indicación de por lo menos uno de entre una unidad de transmisión discontinua y un detector de errores de canal para controlar la estimación del espectro del ruido de fondo.
Preferentemente el terminal móvil comprende el detector de errores de canal. El detector de errores de canal puede proporcionar una indicación de que las tramas individuales que se usan para transmitir la señal a través de un canal son erróneas.
Preferentemente, la indicación la proporciona un decodificador de voz en un camino de enlace descendente. Preferentemente, el detector destinado a detectar errores de canal está en el decodificador de voz. Preferentemente, la indicación surge en un decodificador de canal y es tratada por el decodificador de voz. Preferentemente, la indicación es tratada por una unidad de tratamiento de tramas defectuosas en el decodificador de voz.
Preferentemente, el supresor de ruido del terminal móvil comprende un detector de actividad vocal para controlar la estimación del espectro del ruido de fondo. Preferentemente, el detector de actividad vocal forma parte de un codificador de voz.
Preferentemente, el terminal móvil comprende la unidad de transmisión discontinua.
Según otro de los aspectos de la solicitud, se proporciona un terminal móvil que comprende un camino de enlace descendente que tiene un receptor para recibir señales inalámbricas y unos medios para dar salida a la señal en un formato entendible por un usuario y un supresor de ruido para suprimir ruido en señales recibidas, en el cual el supresor de ruido se proporciona en el camino de enlace descendente.
Cuando se aplica a un camino de comunicaciones en un sistema de comunicaciones, la expresión enlace descendente hace referencia al camino que va desde la red a un terminal móvil. Evidentemente, las señales se pueden transmitir a un terminal de comunicaciones fijo, tal como un teléfono fijo, en lugar de a un terminal móvil.
Según otro de los aspectos de la invención, se proporciona un sistema de comunicaciones móviles que comprende una red de comunicaciones móviles y una pluralidad de terminales de comunicaciones móviles, en el cual la red tiene un supresor de ruido para suprimir ruido en una señal que contiene ruido de fondo, comprendiendo el supresor de ruido un estimador para realizar una estimación de un espectro de ruido de fondo, en el cual se usa una indicación de por lo menos uno de entre una unidad de transmisión discontinua y un detector de errores de canal para controlar la estimación del espectro del ruido de fondo.
Preferentemente, la señal la produce un micrófono. La puede producir un micrófono de un teléfono.
Preferentemente, el sistema de comunicaciones móviles comprende la unidad de transmisión discontinua.
Preferentemente, el supresor de ruido está ubicado en la salida de un decodificador en la red para suprimir ruido en voz decodificada. Alternativamente, el supresor de ruido proporciona voz con ruido suprimido a un codificador de la red.
Según otro de los aspectos de la solicitud, se proporciona un sistema de comunicaciones móviles que comprende una red de comunicaciones móviles y una pluralidad de terminales de comunicaciones móviles, en el cual se proporciona un supresor de ruido en la red para suprimir ruido en señales proporcionadas por al menos uno de los terminales móviles.
Según otro de los aspectos de la solicitud, se proporciona un dispositivo sustituidor de tramas para sustituir tramas en una señal con vistas a limitar las perturbaciones provocadas por errores de canal en la señal, comprendiendo el dispositivo sustituidor de tramas una memoria para almacenar una parte de la señal recibida anteriormente, marcada como exenta de errores, un generador de ruido para generar una señal de ruido y un generador de tramas para atenuar progresivamente la parte de la señal recibida anteriormente y para combinar la parte de la señal recibida anteriormente, atenuada, y la señal de ruido con vistas a producir una señal combinada, proporcionando el generador de tramas a la señal combinada una aportación creciente de la señal de ruido con respecto a la parte de la señal recibida anteriormente a medida que pasa el tiempo.
La señal de ruido puede ser una señal aleatoria o seudoaleatoria. Puede ser una combinación de una señal aleatoria o seudoaleatoria y una estimación de ruido.
Preferentemente, la parte de la señal recibida anteriormente se repite y se atenúa progresivamente en cada repetición. La misma puede ser una trama que haya sido recibida. La señal de ruido puede ser un conjunto de tramas sintetizadas que hayan sido generadas previamente. Las tramas sintetizadas de la señal de ruido se pueden añadir de una en una a cada trama atenuada progresivamente de la parte de la señal recibida anteriormente. Preferentemente, la aportación de la señal de ruido se incrementa en el mismo grado en el que se reduce la parte de la señal recibida anteriormente de manera que el nivel de la señal combinada es aproximadamente el mismo que el de la parte de la señal recibida anteriormente.
Se atenúa por lo menos una de entre la señal de ruido y la parte de la señal recibida anteriormente para indicar un corte del canal. Preferentemente se atenúan ambas señales. La atenuación de la señal de ruido puede comenzar una vez que se ha atenuado la parte de la señal recibida anteriormente hasta tal grado que ya no realice ninguna aportación a la señal combinada.
El dispositivo sustituidor de tramas puede formar parte de un manejador de tramas defectuosas el cual forme parte de un decodificador de voz. El generador de ruido puede estar en un supresor de ruido. El supresor de ruido puede obtener información del decodificador de voz y puede ajustar la amplificación que aplica al ruido que ha generado basándose en la información que recibe y en su propia medición de cuánta atenuación han experimentado las tramas repetidas/interpoladas desde la última vez en la que la indicación de trama defectuosa estaba desactivada.
El dispositivo sustituidor puede sustituir tramas que contengan errores, tramas perdidas o ambos tipos de trama. Los errores de canal pueden haber sido provocados por la transmisión de la señal a través de una interfaz aérea.
Según otro de los aspectos de la solicitud, se proporciona un método para sustituir tramas en una señal con vistas a limitar las perturbaciones provocadas por errores de canal, comprendiendo el método las siguientes etapas:
se almacena una parte de la señal recibida anteriormente, marcada como exenta de errores;
se atenúa progresivamente la parte de la señal recibida anteriormente;
se genera una señal de ruido;
se combina la parte de la señal recibida anteriormente, atenuada, y la señal de ruido para producir una señal combinada;
se proporciona a la señal combinada una aportación creciente de la señal de ruido con respecto a la parte de la señal recibida anteriormente a medida que pasa el tiempo.
Según otro de los aspectos de la solicitud se proporciona un terminal móvil que comprende un dispositivo sustituidor de tramas para sustituir tramas en una señal con vistas a limitar las perturbaciones provocadas por los errores de canal en la señal, comprendiendo el dispositivo sustituidor de tramas una memoria para almacenar una parte de la señal recibida anteriormente, marcada como exenta de errores, un generador de ruido para generar una señal de ruido y un generador de tramas para atenuar progresivamente la parte de la señal recibida anteriormente y para combinar la parte de la señal recibida anteriormente, atenuada, y la señal de ruido con vistas a producir una señal combinada, proporcionando el generador de tramas a la señal combinada una aportación creciente de la señal de ruido con respecto a la parte de la señal recibida anteriormente a medida que pasa el tiempo.
Según otro de los aspectos de la solicitud se proporciona un sistema de comunicaciones que comprende una red de comunicaciones que tiene un dispositivo sustituidor de tramas para sustituir tramas en una señal con vistas a limitar las perturbaciones provocadas por errores de canal y una pluralidad de terminales de comunicaciones, comprendiendo el dispositivo sustituidor de tramas una memoria para almacenar una parte de la señal recibida anteriormente, marcada como exenta de errores, un generador de ruido para generar una señal de ruido y un generador de tramas para atenuar progresivamente la parte de la señal recibida anteriormente y para combinar la parte de la señal recibida anteriormente, atenuada, y la señal de ruido con vistas a producir una señal combinada, proporcionando el generador de tramas a la señal combinada una aportación creciente de la señal de ruido con respecto a la parte de la señal recibida anteriormente a medida que pasa el tiempo.
Según otro de los aspectos de la solicitud, se proporciona un detector para detectar discontinuidades en una señal que comprende una secuencia de tramas y que contiene ruido de fondo, en el cual se mide la amplitud de la señal para detectar una caída repentina de la amplitud y cuando se detecta una caída de amplitud, se determina su brusquedad y si la brusquedad es suficientemente acusada se proporciona una indicación de discontinuidad para controlar la estimación del ruido de fondo.
Según otro de los aspectos de la solicitud, se proporciona un supresor de ruido que comprende un estimador para realizar una estimación del ruido de fondo en una señal que comprende una secuencia de tramas y que contiene ruido de fondo, y un detector para detectar discontinuidades en la señal, en el cual se mide la amplitud de la señal para detectar una caída repentina de la amplitud y cuando se detecta una caída de amplitud se determina su brusquedad y si la brusquedad es suficientemente acusada se proporciona una indicación de discontinuidad para controlar la estimación del ruido de fondo.
La invención está destinada a detectar huecos artificiales en la señal los cuales pueden haber sido producidos deliberadamente aunque no son detectables fácilmente debido a que no existe ninguna discontinuidad en la secuencia de tramas.
Preferentemente, la indicación de discontinuidad se usa para controlar la velocidad con la cual se actualiza una estimación del ruido de fondo. Preferentemente, la velocidad se reduce cuando se detecta una caída de amplitud.
Preferentemente, la reducción de la velocidad con la cual se actualiza la estimación del ruido de fondo está destinada a proteger la estimación del ruido de fondo de manera que no sea actualizada por un ruido que no sea el que se produce simultáneamente sino que pueda basarse en ruido producido en instantes de tiempo anteriores. Preferentemente, la estimación del ruido de fondo se genera en un supresor de ruido. Aunque el detector puede formar parte del supresor de ruido, el mismo puede ser una unidad independiente la cual simplemente proporcione y acepte una entrada hacia y desde el supresor de ruido. La disminución de la amplitud puede ser debida a una o más tramas perdidas, o a un proceso de atenuación y repetición usado para enmascarar dichas trama o tramas perdidas o puede ser debida a una reducción del ruido real que se está produciendo simultáneamente y que está contenido en la señal. Alternativamente, el detector detecta una discontinuidad provocada por el silenciamiento del micrófono. La reducción de la velocidad de actualización de la estimación del ruido da como resultado que la parte de la señal con la que se está tratando en ese momento específico influya menos en la estimación del ruido. De esta manera, la estimación del ruido sigue basándose en el ruido de fondo real si la señal todavía contiene este último aunque su influencia se reduce para hacer frente a la posibilidad de que la señal ya no contenga ruido de fondo real en ese momento sino que por el contrario se esté usando alguna otra señal, por ejemplo, una trama repetida y atenuada.
Según otro de los aspectos de la solicitud, se proporciona un método de detección de discontinuidades en una señal que comprende una secuencia de tramas y que contiene ruido de fondo, que comprende:
se mide la amplitud de la señal para detectar una caída repentina de amplitud;
se detecta cuándo cae la amplitud;
se determina la brusquedad de la caída; y
si la brusquedad es suficientemente acusada, se proporciona una indicación de discontinuidad para controlar la estimación del ruido de fondo.
Según otro de los aspectos de la solicitud se proporciona un terminal móvil que comprende un supresor de ruido en el cual el supresor de ruido comprende un estimador para realizar una estimación del ruido de fondo en una señal que comprende una secuencia de tramas y un detector para detectar discontinuidades en la señal, midiéndose la amplitud de la señal para detectar una caída repentina de la amplitud y cuando se detecta una caída de amplitud se determina su brusquedad y si la brusquedad es suficientemente acusada se proporciona una indicación de discontinuidad para controlar la estimación del ruido de fondo.
Según otro de los aspectos de la solicitud, se proporciona un sistema de comunicaciones que comprende una red de comunicaciones que tiene un supresor de ruido y una pluralidad de terminales de comunicaciones, comprendiendo el sistema de comunicaciones un estimador para realizar una estimación del ruido de fondo en una señal que comprende una secuencia de tramas y un detector para detectar discontinuidades en la señal, en el cual se mide la amplitud de la señal para detectar una caída repentina de la amplitud y cuando se detecta una caída de la amplitud se determina su brusquedad, y si la brusquedad es suficientemente acusada se proporciona una indicación de discontinuidad para controlar la estimación del ruido de fondo.
Según otro de los aspectos de la solicitud, se proporciona una fase de supresión de ruido para actuar sobre una señal, comprendiendo la fase de supresión de ruido un primer bloque de ventanaje para ponderar la señal por medio de una primera función de ventana, un módulo de transformación para transformar la señal del dominio en el tiempo al dominio en la frecuencia, un módulo de transformación para transformar la señal del dominio en la frecuencia al dominio en el tiempo, y un segundo bloque de ventanaje para ponderar la señal por medio de una segunda función de ventana.
Según otro de los aspectos de la solicitud, se proporciona un método de ventanaje de dos fases que comprende las siguientes etapas:
se pondera una señal en el dominio del tiempo por medio de una primera función de ventana para producir una trama;
se transforma la trama al dominio de la frecuencia;
se transforma la trama de vuelta al dominio del tiempo; y
se pondera la trama por medio de una segunda función de ventana para suprimir errores en la adaptación entre tramas adyacentes.
Preferentemente, el método comprende la etapa de ponderación por parte de las ventanas después de una etapa de codificación de la voz. Alternativamente, la ponderación se puede producir antes que una etapa de codificación de la voz.
Preferentemente, las funciones de ventana tienen una forma trapezoidal con una pendiente anterior y una pendiente posterior. Preferentemente, la primera función de ventana tiene una pendiente anterior con un gradiente que es más plano que el correspondiente a la pendiente anterior de la segunda función de ventana. Preferentemente, la primera función de ventana tiene una pendiente posterior con un gradiente que es más plano que el correspondiente a la pendiente posterior de la segunda función de ventana. El disponer de una pendiente relativamente plana en la primera función de ventana proporciona una buena transformación de frecuencias. El disponer de una pendiente relativamente inclinada en la segunda función de ventana proporciona una buena supresión de desadaptación entre tramas adyacentes en el dominio del tiempo.
Según otro de los aspectos de la solicitud, se proporciona un terminal móvil que comprende una fase de supresión de ruido para actuar sobre una señal, comprendiendo la fase de supresión de ruido un primer bloque de ventanaje para ponderar la señal por medio de una primera función de ventana, un módulo de transformación para transformar la señal del dominio en el tiempo al dominio en frecuencia, un módulo transformador para transformar la señal del dominio en frecuencia al dominio en el tiempo y un segundo bloque de ventanaje para ponderar la señal por medio de una segunda función de ventana.
Según otro de los aspectos de la solicitud, se proporciona un sistema de comunicaciones que comprende una red de comunicaciones que dispone de una fase de supresión de ruido para actuar sobre una señal y de una pluralidad de terminales de comunicaciones, comprendiendo la fase de supresión de ruido un primer bloque de ventanaje para ponderar la señal por medio de una primera función de ventana, un módulo de transformación para transformar la señal del dominio en el tiempo al dominio en frecuencia, un supresor de ruido para suprimir ruido en la señal, un módulo de transformación para transformar la señal del dominio en frecuencia al dominio en el tiempo y un segundo bloque de ventanaje para ponderar la señal por medio de una segunda función de ventana.
La señal puede ser voz con ruido aunque puede que la voz no esté presente todo el tiempo.
A continuación se describirá una forma de realización de la invención únicamente a título de ejemplo, haciendo referencia a los dibujos adjuntos en los cuales:
la Figura 1 muestra un terminal móvil según la técnica anterior;
la Figura 2 muestra un terminal móvil según la invención,
la Figura 3 muestra un detalle de un supresor de ruido en el terminal móvil de la Figura 2;
la Figura 4 muestra representaciones de funciones de ventana según la invención;
la Figura 5 muestra la invención en forma de un diagrama de flujo; y
la Figura 6 muestra un sistema de comunicaciones que incorpora la invención.
La Figura 1 se ha descrito anteriormente en relación con planteamientos convencionales de supresión de ruido conocidos a partir de la técnica anterior.
La Figura 2 muestra un terminal móvil 10 similar al correspondiente a la Figura 1, modificado según la presente invención. Se han aplicado referencias numéricas correspondientes a las partes pertinentes. El terminal 10 de la Figura 2 comprende adicionalmente un supresor de ruido 44 ubicado en la vía de recepción (enlace descendente/decodificación de la voz) 14. Debería observarse que el supresor de ruido 44 está conectado al manejador DTX 36 y a la unidad de tratamiento de tramas defectuosas 38. El supresor de ruido 44 recibe señales del manejador DTX 36 y de la unidad de tratamiento de tramas defectuosas 38 las cuales influyen en su funcionamiento, tal como se describirá posteriormente. Debería observarse que aunque las unidades supresoras de ruido en las vías de codificación de la voz y de decodificación de la voz se muestran como bloques independientes (20 y 44) en la Figura 2, las mismas se pueden implementar en una única unidad. Dicha unidad única puede disponer de una funcionalidad de supresión de ruido tanto en la codificación de la voz como en la decodificación de la voz.
El supresor de ruido 44 está ubicado en la vía de recepción (decodificación de la voz) 14 a la salida de un decodificador de voz (en este caso el decodificador de voz 34). Por esta razón, el mismo debe procesar una señal de voz con ruido, resultante de una o más fases de codificación y de decodificación de la voz, por ejemplo, en conexiones de móvil-a-móvil a través de uno o más sistemas de telefonía móvil.
Debería entenderse que aunque el supresor de ruido 44 se muestra en un terminal móvil, el mismo también puede estar ubicado en una red. Tal como se explicará posteriormente, su funcionamiento resulta particularmente relevante cuando el mismo se usa conjuntamente con un codificador de voz, un decodificador de voz o un códec.
La Figura 3 muestra detalles de un supresor de ruido 300. El supresor de ruido 300 se puede aplicar para suprimir ruido en señales tanto recibidas como transmitidas por un terminal móvil y por lo tanto puede constituir la base del supresor de ruido 20 ó el supresor de ruido 44 del terminal móvil 10 de la Figura 2. El supresor de ruido 300 se presenta en términos de bloques funcionales. Se incluyen también bloques funcionales para llevar a cabo operaciones de procesado de tramas y de Transformada Rápida de Fourier (FFT).
En la vía del enlace ascendente (codificación de la voz), el conversor A/D 18 produce un flujo continuo de datos digitales el cual se proporciona al supresor de ruido 20 que lo convierte en una trama de entrada. A continuación se describirá la creación de esta trama de entrada haciendo referencia a la Figura 3. En un bloque de formación de secuencias de entrada 316 se extrae de un flujo continuo de entrada 314 una secuencia de entrada 312 de tramas de 80 muestras. La secuencia de entrada 312 se añade a una secuencia de 18 muestras almacenada en una memoria intermedia de segmentos de superposición de entrada 318. Esta secuencia de 18 muestras se almacenó en la memoria intermedia 318 durante la creación de una secuencia de entrada anterior. Una vez que el contenido de la memoria 318 se ha usado para la nueva trama de entrada, el mismo se sustituye por las últimas 18 muestras de la secuencia de entrada nueva, las cuales se usarán en la creación de la siguiente trama. Por lo tanto, la salida del bloque de formación de secuencias de entrada 316 es una secuencia que contiene un total de 98 muestras.
En el bloque 320, a la secuencia de entrada 312 obtenida a partir del bloque de formación de secuencias de entrada 316 se le aplica una función de ventana trapezoidal de 98 muestras. La función de ventana se ilustra en la Figura 4 y la misma se indica mediante la etiqueta W1. La Figura 4 muestra además otra función de ventana W3 la cual se describe posteriormente. La función de ventana W1 dispone de unas rampas anterior y posterior de 12 muestras de longitud. Después del ventanaje, a la secuencia de entrada resultante se le añaden 30 ceros, para producir una trama de entrada de 128 muestras. Debería observarse que la operación de relleno con ceros, recién descrita, produce una trama de entrada con un número de muestras que es una potencia de 2, en este caso 2^{7}. Esta opción garantiza que las subsiguientes operaciones de Transformada Rápida de Fourier (FFT) y Transformada Rápida de Fourier Inversa (IFFT) se puedan realizar eficazmente.
En el bloque 322, se realiza una FFT de 128 puntos sobre la trama de entrada para extraer el espectro de frecuencia de la trama. El espectro de amplitud se calcula a partir de la FFT compleja usando una división de frecuencia predeterminada que es más amplia que la resolución de frecuencia ofrecida por la longitud de la FFT. A las bandas de frecuencia determinadas por esta división se les hace referencia como "bandas de frecuencia de cálculo". La estimación del espectro de amplitud contiene información sobre la distribución de frecuencia de la señal, la cual se usa a continuación en el supresor de ruido 44 para calcular coeficientes de ganancia de la supresión de ruido para las bandas de frecuencia de cálculo (bloque 328). En parte, la finalidad de este cálculo es establecer y mantener una estimación del espectro de frecuencia correspondiente al ruido de fondo.
En el bloque 330, la FFT compleja, proporcionada como una salida del bloque 322, se multiplica dentro de las bandas de frecuencia de cálculo por los coeficientes de ganancia correspondientes del bloque 328. Finalmente, el espectro complejo modificado se transforma de vuelta al dominio del tiempo del bloque 330 usando una FFT inversa en el bloque 366.
Se sabe que los requisitos de carga computacional y de memoria, así como el retardo algorítmico de las operaciones de ventanaje, se pueden reducir usando una función de ventana trapezoidal sencilla con un segmento de superposición corto. No obstante, el uso de una función de ventana tan sencilla puede dar origen a efectos no deseables en la señal de salida. El más destacado de dichos efectos es una crepitación introducida debido a una desadaptación (por ejemplo, en el nivel de la señal y el contenido espectral) en los límites cortos de las tramas superpuestos. Esta perturbación se puede producir en condiciones de una SNR de entrada moderada, en las que la función de ganancia manifiesta con frecuencia unas ganancias de atenuación altamente variables entre las bandas de frecuencia de cálculo. Cuando el supresor de ruido actúa como una fase de preprocesado antes que un codificador de voz, por ejemplo, en la vía de enlace ascendente (codificación de voz), esta crepitación queda enmascarada típicamente por el propio proceso de codificación-decodificación de la voz.
No obstante, en el caso del terminal móvil 10 de la Figura 2, no existe ninguna fase de codificación de la voz adicional ubicada después del supresor de ruido 44 según el sentido de avance. Por lo tanto, las perturbaciones no deseables introducidas por el uso de funciones de ventana trapezoidal con segmentos de superposición cortos no quedan ocultadas por un proceso subsiguiente de codificación y serán audibles en la señal de salida proporcionada al altavoz/auricular 42. Para superar este problema, se podría alargar la longitud del segmento de superposición y se podría suavizar la función de ventana, aunque esto conduciría a un aumento de la complejidad computacional y particularmente, del retardo algorítmico.
Por esta razón, según la invención, se forma una trama de salida en el dominio del tiempo a través de un procedimiento mejorado de superposición-adición para suprimir perturbaciones en las zonas limítrofes de las tramas. Esta opción se representa por medio de las funciones de ventana W1 y W3. Se aplica una disposición de ventanaje de "dos fases" en la cual se usa una combinación de por lo menos dos funciones de ventana trapezoidal que presentan unas características ligeramente diferentes, introduciéndose en una FFT una función de ventana para el ventanaje de tramas y obteniéndose a la salida de una IFFT otra función de ventana para el ventanaje de tramas. En el método según la invención, a la señal de entrada en el bloque 320, antes de llevar a cabo la FFT en el bloque 322, se le aplica una primera función de ventana trapezoidal W1, que presenta unas rampas relativamente largas y planas. Cuando la señal de entrada se transforma de vuelta al dominio del tiempo mediante la IFFT en el bloque 366, se modifica la salida de la IFFT en el bloque 368 por medio de una segunda función de ventana trapezoidal W3, que presenta unas rampas más cortas y más inclinadas que la función de ventana usada antes que la FFT. La longitud del segmento de superposición-adición se determina por medio de la longitud de la rampa de la segunda ventana estrechada gradualmente. Las funciones de ventana W1 y W3 se pueden ver, y comparar, en la Figura 4.
La W3 tiene una longitud de solamente 86 muestras, con unas funciones de rampa anterior y posterior de una longitud de seis muestras. El comienzo de esta segunda ventana se sincroniza con la sexta muestra de la secuencia (vector) de salida IFFT y las funciones de rampa son tales que producen una rampa lineal de una longitud de seis muestras a ambos extremos de la ventana. La salida de esta operación es un vector de 86 muestras, cuyas primeras seis muestras se suman muestra a muestra en el bloque 372 con las muestras de una memoria intermedia de segmentos de superposición de salida 370 del mismo tamaño, almacenadas durante el procesado de la trama anterior. A continuación, las últimas seis muestras del vector de salida de la ventana se almacenan en la memoria intermedia de segmentos de superposición de salida 370 para ser usadas en la siguiente trama. En el bloque 374, se extrae finalmente la trama de salida en forma de las primeras 80 muestras de la salida de la ventana, incluyendo la suma anterior de las seis primeras muestras con la anterior memoria intermedia de segmentos de superposición de salida.
Debería observarse también que el proceso de ventanaje trapezoidal de dos fases antes descrito se puede usar conjuntamente con un supresor de ruido usado como una fase de preprocesado después de la decodificación de la voz, o se puede aplicar en un supresor de ruido usado como preprocesador antes de la codificación de la voz. Específicamente, la mejora de calidad ofrecida por la ventana de dos fases en la entrada de un codificador de voz puede hacer que mejore la calidad alcanzada en el proceso de codificación de la voz.
Como los vectores de entrada para las FFT en la práctica comprenden números reales, la carga computacional se puede reducir mediante el empaquetamiento de dos tramas de entrada en una FFT compleja, usando un método de recombinación trigonométrica tal como el descrito en Numerical Recipes in C; The Art of Scientific Computing (págs. 414 a 415), 1988. En este planteamiento, las muestras de una primera trama con ventanaje aplicado y con relleno de ceros se asignan a los componentes reales de la secuencia de entrada para la FFT. A los componentes imaginarios de la secuencia de entrada se les asigna una segunda trama. A continuación se calcula una FFT compleja de 128 puntos. Los espectros complejos de las dos tramas se pueden separar mediante una recombinación trigonométrica. Después del procesado de reducción de ruido de los dos espectros complejos, los mismos se combinan sumando al primer espectro el segundo multiplicado por la unidad imaginaria. El espectro complejo resultante se alimenta a una IFFT y las tramas de salida en el dominio del tiempo se pueden hallar en las partes real e imaginaria de la salida IFFT.
En el bloque 326 se calcula un espectro de amplitud aproximado a partir de la FFT compleja. En cada compartimento (bin) FFT, el valor complejo se eleva al cuadrado para producir un valor de energía correspondiente a ese compartimento. Los valores de los compartimentos FFT al cuadrado dentro de cada una de las bandas de frecuencia de cálculo se suman y a continuación se aplica una raíz cuadrada para generar una amplitud promedio aproximada para cada banda de frecuencias de cálculo. Debería apreciarse que los valores espectrales de la potencia se pueden usar de una forma totalmente análoga.
La estimación del espectro del ruido de fondo se basa en la representación aproximada del espectro de amplitud obtenida en forma de una salida del bloque 326. Posteriormente se describen procedimientos para actualizar la estimación del espectro del ruido de fondo.
En la forma de realización preferida de la invención, el intervalo de frecuencias de 0 Hz a 4 kHz se divide en 12 bandas de frecuencia de cálculo que presentan anchuras diferentes. La división se basa en información estadística sobre las posiciones promedio de las frecuencias de los formantes en la voz. El proceso de promediar valores espectrales sobre las bandas de frecuencias de cálculo reduce eficazmente el número de compartimentos espectrales a procesar y por lo tanto reduce la carga computacional del algoritmo y consigue que se ahorre memoria de acceso aleatorio (RAM) tanto estática como dinámica. Por otra parte, el promediado en el dominio de la frecuencia tiene un efecto de suavización sobre la voz mejorada. No obstante, estas ventajas se alcanzan a costa de la resolución frecuencial y por lo tanto puede que sea necesaria una solución de compromiso. En particular, si el ruido de fondo ocupa la misma zona de frecuencias que la señal de voz, la resolución frecuencial debería ser suficientemente alta como para permitir la suficiente separación entre la voz y el ruido.
A continuación se describirá el funcionamiento del proceso de supresión de ruido que se produce en el supresor de ruido 44. La supresión de ruido se ocupa de mejorar una señal de voz que ha sido deteriorada por un ruido de fondo adicional. Según la presente invención, la supresión de ruido se realiza calculando una estimación del espectro de la señal de voz con ruido, realizando una estimación del espectro del ruido de fondo, e intentando producir una mejora del espectro de la voz con ruido con un nivel de ruido menor que la voz con ruido original.
En el supresor de ruido 44, se usa un filtrado de Wiener modificado. En el bloque 328 se calculan coeficientes de ganancia para cada banda de frecuencias de cálculo sobre la base de una estimación de la SNR a priori calculada en el bloque 344 usando las estimaciones del espectro de la amplitud para la trama de voz entrante (actual) y el ruido de fondo. A continuación en el bloque 351 se realiza una interpolación sobre la base de estos coeficientes de ganancia para proporcionar a cada compartimento FFT un coeficiente de ganancia según la banda de frecuencias de cálculo en la cual reside dicho compartimento. Los coeficientes de ganancia para los compartimentos FFT por debajo de la frecuencia inferior de la banda de frecuencias de cálculo más baja se determinan basándose en el coeficiente de ganancia de la banda de frecuencias de cálculo más baja. De forma similar, los coeficientes de ganancia aplicados a los compartimentos FFT por encima del límite superior de la banda de frecuencias de cálculo más alta se determinan usando el coeficiente de ganancia correspondiente a la banda de frecuencia de cálculo más alta. Los componentes espectrales complejos se multiplican por los coeficientes de ganancia correspondientes en el bloque 330. En el supresor de ruido 44, los valores de los coeficientes de ganancia están en el intervalo [low_gain,1], en el que 0<low_gain<1, ya que esta opción simplifica el control del procesado en relación con los desbordamientos.
La fórmula de cálculo de la ganancia para la estimación de la amplitud de Wiener para cualquier compartimento de frecuencias \theta se puede escribir como:
1G_{w}(\theta) = \frac{\xi(\theta)}{1 + \xi(\theta)},
\hskip1cm
\theta = 0,1,...,64
en la que \xi(\theta) es la SNR a priori. Según la técnica anterior, se puede realizar una estimación de la SNR a priori según un método de estimación enfocado a las decisiones,
tal como el presentado en IEEE Transactions on Acoustics, Speech and Signal Processing, ASSP-32(6), 1984. La Ecuación 1 se modifica usando un promediado por pasos, en el dominio de la frecuencia, de los espectros de amplitud en las bandas de las frecuencias de cálculo, lo cual provoca unas diferencias de un compartimento a otro dentro de una banda menores que las del estimador de Wiener original que usa la resolución frecuencial basada en la FFT completa. En aras de una mayor claridad en la notación, en lo sucesivo el símbolo s se usa para hacer referencia a una banda de frecuencias de cálculo y para diferenciarlo de \theta, el símbolo usado para indicar un compartimento FFT. Además, para calcular un coeficiente de ganancia dentro de una banda de frecuencias de cálculo, se usa una modificación del estimador de amplitud de Wiener básico. Esta opción se puede representar como:
2G(s) = \frac{\tilde{\xi}(s)}{1 + \tilde{\xi}(s)},
\hskip1cm
s= 0,1,...,11
La modificación del filtrado de Wiener introducida en el presente caso implica la forma según la cual se realiza la estimación de la SNR a priori para cada banda de frecuencias de cálculo. Esencialmente, no existe ninguna manera de extraer una SNR a priori auténtica a partir de una señal de un solo canal ya que las propias señales de ruido y la voz originales no son conocidas a priori.
La estimación de la SNR a priori tiene lugar en el bloque 344. Según la técnica anterior, se puede realizar una estimación de la SNR a priori usando el planteamiento enfocado a las decisiones mencionado anteriormente, el cual se puede expresar matemáticamente de la manera siguiente:
3\hat{\xi}(s,n) = \alpha G^{2}(s,n - 1) \gamma (s,n - 1) + (1 + \alpha) P [\gamma(s,n) - 1]
En la ecuación 3, \gamma(s,n) es la SNR a posteriori del número de trama n, calculada en el bloque 342 como la relación de los componentes del espectro de potencia de la trama actual y la estimación del espectro de potencia del ruido de fondo para la banda de frecuencias de cálculo s. Esta relación de potencias se calcula elevando al cuadrado la relación de los componentes correspondientes de las estimaciones respectivas del espectro de amplitud. G(s,n -1) es el coeficiente de ganancia para la banda de frecuencias de cálculo s determinada para la trama anterior, P(\cdot) es la función de rectificación y \alpha es el denominado "factor de olvido" (0<\alpha<1). Según el planteamiento enfocado a las decisiones, \alpha puede adoptar uno de entre dos valores dependiendo de la decisión del VAD para la trama actual.
\newpage
Se puede realizar una estimación precisa de la SNR a priori en unas condiciones de una SNR elevada y, de forma más general, en bandas de frecuencia en las que la voz bien está claramente presente o bien está totalmente ausente. No obstante, como la fórmula de estimación de Wiener, está presentada en la Ecuación 1, tiene una derivada la cual aumenta notablemente hacia los valores bajos de la SNR y la estimación proporcionada por la ecuación 3 no es del todo precisa en los valores bajos de la SNR, la aplicación directa de la fórmula de estimación de Wiener tal como se presenta en la Ecuación 1 provoca efectos molestos en las bandas de frecuencias de la SNR baja cuando hay presencia de voz. Además de la distorsión de la voz, el ruido residual puede llegar a ser inestable a niveles molestos durante la pronunciación de palabras con niveles de ruido moderados.
En la presente invención, en lugar de la relación convencional voz/ruido introducida anteriormente se realiza una estimación de una relación a priori de voz con ruido/ruido. En la siguiente descripción, esta relación voz con ruido/ruido se indicará usando la abreviatura NSNR. Usando una estimación de una NSNR a priori, en lugar de una estimación directa de la SNR a priori, se puede mejorar significativamente la calidad subjetiva (percibida) de una señal de voz con ruido suprimido.
De este modo, según la invención, la estimación de la SNR a priori se sustituye por la estimación de una relación voz con ruido/ruido, NSNR, lo cual conduce a la sustitución de la fórmula de la ecuación 3 por la siguiente:
4\hat{\xi}(s,n) = \alpha G^{2}(s,n - 1) \gamma (s,n - 1) + (1 - \alpha) P [\gamma(s,n)]
Se reivindica que se puede realizar una estimación del NSNR más precisa que la relación voz/ruido SNR a priori. Según la ecuación 4, los valores de la SNR a posteriori obtenidos para la trama anterior, multiplicados por los coeficientes de ganancia respectivos correspondientes a la trama anterior, se usan en el cálculo de la relación voz con ruido/ruido a priori correspondiente a la trama actual. Los valores de la SNR a posteriori para cada una de las tramas se almacenan en el bloque de memoria SNR 345 después del cálculo de los coeficientes de ganancia correspondientes a la trama. De este modo los valores de la SNR a posteriori correspondientes a la trama anterior se pueden recuperar del bloque de memoria SNR 345 y se pueden usar en el cálculo de una NSNR a priori de la trama actual.
Según la invención, la estimación de la NSNR proporcionada por la ecuación 4 está acotada también desde por debajo, tal como se expresa en la ecuación 5. Esta opción fija eficazmente un límite superior sobre la atenuación máxima de ruido que puede obtenerse:
5\hat{\xi}'(s) = max(\xi\_min,\hat{\xi}(s))
Seleccionando un valor umbral, \xi_min, que dé como resultado una atenuación máxima de aproximadamente 10 dB y sustituyendo \hat{\xi}'(s) en la fórmula de ganancia de Wiener, el ruido de fondo residual (es decir, el componente de ruido que queda después de la supresión de ruido) se suaviza y se reduce significativamente la distorsión de la voz.
El factor de olvido \alpha de la ecuación 4 se trata también de forma diferente a la de los métodos de supresión de ruido de la técnica anterior. En lugar de seleccionar el factor de olvido \alpha basándose en la decisión del VAD, el mismo se determina sobre la base de las condiciones reinantes de la SNR. Esta característica viene motivada por el hecho de que en unas condiciones de SNR baja, la suavización en el dominio del tiempo de la estimación de la NSNR a priori puede reducir el efecto negativo de los errores de estimación sobre la calidad de la voz con ruido suprimido. Para establecer la relación entre el factor de olvido y las condiciones reinantes de la SNR, \alpha se calcula basándose en una indicación de la SNR a posteriori invertida, snr_ap_I_{n}, presentada a continuación en la siguiente ecuación 6:
6\alpha = \alpha (snr\_ap\_i_{n})
En la estimación de la SNR a priori se introduce también una corrección NSNR. Esta corrección reduce la tendencia a subestimar la NSNR a priori de la ecuación 4 en unas condiciones de una SNR baja, un efecto que provoca una amortiguación y una distorsión de la voz con ruido suprimido (mejorada). Para realizar la corrección SNR, en la entrada del supresor de ruido se monitorizan las condiciones de la SNR de larga duración. Con este fin, en el bloque 348 se establecen y se mantienen unas estimaciones de larga duración del nivel de voz con ruido y del nivel del ruido filtrando las potencias totales de las tramas de entrada y la potencia total de la estimación del espectro del ruido de fondo en el dominio del tiempo.
Para obtener una estimación del nivel de voz, se promedia el espectro de potencia de la trama de voz actual sobre las bandas de frecuencias de cálculo. Las potencias de las tramas se filtran con un factor de olvido variable y un retardo de trama variable para producir la estimación del nivel de voz con ruido. La estimación del nivel de ruido se obtiene promediando la estimación del espectro del ruido de fondo sobre las bandas de frecuencias de cálculo y realizando un filtrado con factor de olvido fijo a través del tiempo.
El supresor de ruido 44 comprende además un Detector de Actividad Vocal (VAD) 336, el cual se usa para controlar el procedimiento de actualización de la estimación del espectro de ruido de fondo, tal como se describirá a continuación. La detección de la actividad Vocal se usa en el supresor de ruido 44 principalmente para controlar la estimación del espectro del ruido de fondo. No obstante, la decisión del VAD 336 para cada trama se usa también para controlar algunas otras funciones tales como la estimación de los niveles de la voz con ruido y del ruido en relación con la estimación de la NSNR a priori (antes descrita) y con el procedimiento de búsqueda de mínimos en el cálculo de la ganancia (que se describirá posteriormente). Además, el algoritmo VAD se puede usar para producir una indicación de detección de voz para aplicaciones externas. El funcionamiento de la indicación VAD se puede optimizar para funciones externas, tales como funciones manos libres de control de eco o de transmisión discontinua (DTX), realizando pequeñas modificaciones, tales como cambios de valores de parámetros para incrementar o decrementar la sensibilidad del VAD.
Para actualizar la estimación del nivel de la voz con ruido únicamente en tramas que contienen voz, se permite o se evita la actualización dependiendo de si el VAD 336 detecta actividad vocal en la trama actual y en las tramas próximas. Se introduce un retardo para posibilitar la monitorización de las decisiones del VAD 336 tanto antes como después de la trama a partir de la cual se obtiene la potencia de actualización. Tomando esta precaución, se puede reducir el impacto sobre la estimación del nivel de voz de potencias reducidas en tramas que representan transiciones entre voz con ruido y ruido puro y se puede compensar la poca fiabilidad inherente de las decisiones VAD 336 en estas tramas. En la práctica, el retardo se fija a 2 tramas excepto para las tramas con una potencia de trama muy elevada, en cuyo caso se selecciona el mínimo de entre los correspondientes a las últimas tres tramas para las cuales el VAD 336 detecta voz.
Para favorecer la actualización con potencias de trama que representen el intervalo medio de la potencia de la voz con ruido, el factor de olvido adopta valores que permiten actualizaciones más rápidas en los casos en los que la diferencia entre la potencia de la trama actual y la estimación del nivel de voz antiguo es pequeña en términos absolutos.
La estimación del nivel de ruido se obtiene filtrando trama a trama la potencia total en la estimación del espectro del ruido de fondo. En este caso, no se fijan condiciones adicionales basadas en el VAD y el factor de olvido se mantiene constante ya que el procedimiento de actualización para la estimación del espectro de ruido ya es altamente fiable.
Finalmente, se define un indicador de nivel de ruido relativo el cual se usa como factor de corrección SNR. El mismo se define como una relación a escala y acotada de la estimación del nivel de ruido con respecto a la estimación del nivel de la voz con ruido, tal como se muestra en la siguiente ecuación 7:
7\eta = min\left(max\_\eta, \kappa \frac{\hat{N}}{\hat{S}}\right)
en la que \hat{N} es la estimación del nivel del ruido y \hat{S} es la estimación del nivel de la voz con ruido; \kappa es un factor de escala, y max_\eta es el límite superior del resultado. \hat{N} y \hat{S} se calculan en el bloque 348. La acotación se puede implementar simplemente en forma de una saturación en aritmética de punto fijo, y la transformación a escala se puede sustituir por un desplazamiento hacia la izquierda fijando \kappa = 2. Como según una de las formas de realización preferidas de la invención, las estimaciones del nivel de la voz con ruido y del ruido se almacenan en el dominio de la amplitud, en primer lugar se calcula la relación de la ecuación 7 para las amplitudes y a continuación la misma se eleva al cuadrado para producir una relación en el dominio de la potencia.
La estimación del nivel de ruido \hat{N}, antes descrita, se fija a cero en el inicio del procedimiento. La estimación del nivel de la voz con ruido \hat{S} se inicia a un valor correspondiente a una potencia de voz moderadamente baja. Como valor mínimo para la estimación del nivel de la voz con ruido en el procesado subsiguiente se usa otro valor algo más reducido.
La corrección SNR se aplica a la estimación de la NSNR a priori según la ecuación 8:
8\hat{\xi}(s) = (1 + \eta)\hat{\xi}'(s)
Esto produce una estimación de la NSNR a priori modificada con vistas a su sustitución en la ecuación 2.
La detección de la actividad vocal en una trama de voz determinada se basa en la estimación de la SNR a posteriori calculada en el bloque 342 del supresor de ruido. Básicamente, la decisión del VAD se toma comparando una medida de la distancia espectral D_{SNR} con un umbral adaptativo vth. La distancia espectral D_{SNR} se calcula como el promedio de los componentes del vector SNR a posteriori:
9D_{SNR} = \sum\limits^{s\_h}_{s=s\_1} \nu_{s} \gamma(s),
en la que s_l y s_h son los índices de los componentes correspondientes a las bandas de frecuencias de cálculo más baja y más alta incluidas en la decisión del VAD y \nu_{s} es un factor de ponderación aplicado al componente del vector SNR en la banda s. En la forma de realización de la invención presentada en este caso, se consideran todos los componentes con el mismo peso, es decir, s_l = 0, s_h = 11, y \nu_{s} = 1/12.
Si D_{SNR} supera el umbral vth, se interpreta que la trama contiene voz y la función VAD indica "1". En cualquier otro caso, la trama se clasifica como ruido y el VAD indica "0". Estas decisiones binarias del VAD se almacenan en un registro de desplazamiento que abarca 16 tramas (una variable estática de 16 bits) para posibilitar referencias a decisiones antiguas del VAD.
El valor umbral del VAD vth es normalmente constante. No obstante, en condiciones de una SNR muy buena el valor umbral se incrementa para evitar que pequeñas fluctuaciones en la potencia de la señal se interpreten como voz. Unos valores reducidos del nivel de ruido relativo \eta (antes descrito) indican unas buenas condiciones de SNR, ya que este factor es una relación a escala de la potencia de ruido estimada con respecto a la potencia de la voz con ruido estimada. De este modo, cuando \eta es reducida, el umbral del VAD vth se incrementa linealmente con respecto al negativo de \eta. Se define también un umbral en relación con \eta de tal manera que cuando \eta es mayor que el umbral, vth se mantiene constante.
Si la potencia de la señal de entrada es muy baja, pequeños acontecimientos no estables en la señal se podrían interpretar erróneamente como voz, incluso después de la adaptación del umbral VAD según se ha descrito anteriormente. Para eliminar dichas detecciones falsas de voz, la potencia total de la trama de la señal de entrada se compara con un umbral. Si la potencia de la trama permanece por debajo del umbral, la decisión del VAD se fuerza al valor "0", para indicar que no se ha producido voz. No obstante, esta modificación se lleva a cabo únicamente cuando la decisión del VAD se aplica en la estimación de la NSNR a priori para determinar los pesos correspondientes a la estimación antigua y la SNR a posteriori de la trama nueva en la ecuación 4. Con el fin de actualizar la estimación del espectro del ruido de fondo y las estimaciones del nivel de la voz con ruido y del ruido, así como en una búsqueda de ganancia mínima (la cual se describirá posteriormente), se usan las decisiones del VAD sin modificar del registro de desplazamiento de 16 bits.
Para garantizar una buena respuesta a los transitorios en la voz, los coeficientes de ganancia de atenuación del ruido calculados en el bloque 328 usando la ecuación 2 deberían reaccionar rápidamente a la actividad Vocal. Desafortunadamente, un aumento de la sensibilidad de los coeficientes de ganancia de atenuación a los transitorios de la voz hace que aumente también su sensibilidad al ruido no estable. Por otra parte, como la estimación del espectro de amplitud del ruido de fondo se lleva a cabo por medio de un filtrado recursivo, la estimación no se puede adaptar rápidamente a componentes de ruido que varíen con rapidez y por lo tanto no puede procurar su atenuación.
También es probable que se produzca una variación no deseable en el ruido residual cuando la resolución espectral del vector de coeficientes de ganancia aumente, debido a que al mismo tiempo se reduce el promediado de los componentes del espectro de potencia, es decir se dispone de menos compartimentos FFT por banda de frecuencias de cálculo. No obstante, el ensanchamiento de las bandas de frecuencias de cálculo reduce la capacidad del algoritmo de localizar aquellas frecuencias en las cuales se puede concentrar el ruido. Esta situación puede provocar una fluctuación no deseable en la salida del supresor de ruido, especialmente a bajas frecuencias en las que se concentra típicamente el ruido. La proporción elevada de contenido de bajas frecuencias en la voz puede provocar además la reducción de la atenuación del ruido en el mismo intervalo de frecuencias bajas en tramas que contengan voz, tendiendo a producirse una modulación molesta del ruido residual síncrono con el ritmo de la voz.
En la presente solicitud, se hace frente a los problemas antes expuestos de forma general usando una "búsqueda de ganancia mínima". Esta operación se lleva a cabo en el bloque 350. Se revisan los coeficientes de ganancia de atenuación G(s) determinados para la trama actual y una o dos tramas anteriores (los cuales están almacenados en el bloque de memoria de ganancia 352) y se identifican los valores mínimos de los coeficientes de ganancia de atenuación para cada banda de frecuencias de cálculo s. Cuando se decide cuántos vectores de coeficientes de ganancia de atenuación anteriores revisar se tiene en cuenta la decisión del VAD referente a la trama actual, de tal manera que si en la trama actual no se detecta voz, se consideran dos conjuntos anteriores de coeficientes de ganancia de atenuación y si se detecta voz en la trama actual únicamente se revisa un conjunto anterior. En la siguiente ecuación 10 se resumen las propiedades de la búsqueda de ganancia mínima:
1
en la que G_{A}(s,n) indica el coeficiente de ganancia de atenuación para la banda de frecuencias de cálculo s en la trama n después de la búsqueda de la ganancia mínima y V_{ind} representa la salida del detector de actividad Vocal.
La búsqueda de ganancia mínima tiende a suavizar y estabilizar el comportamiento del algoritmo de supresión de ruido. Como consecuencia, el ruido de fondo residual suena más uniforme y se atenúan eficazmente los componentes del ruido de fondo no estables que varían rápidamente.
\newpage
Tal como ya se ha explicado, cuando se aplica la supresión de ruido en el dominio de la frecuencia, es necesario obtener una estimación del espectro del ruido de fondo. A continuación se describirá más detalladamente este proceso de estimación. En la presente solicitud, se obtiene una estimación del espectro del ruido de fondo promediando espectros de frecuencia de tramas de señales de entrada durante periodos en los que no se produce actividad Vocal. Esta operación se lleva a cabo en el bloque 332, el cual calcula una estimación temporal del espectro del ruido de fondo y en el bloque 334 el cual calcula una estimación final del espectro del ruido de fondo. Según este planteamiento, la actualización de la estimación del espectro del ruido de fondo se realiza en referencia a la salida del VAD 336. Si el VAD 336 indica que no hay voz presente, el espectro de amplitud de la trama actual se suma, con un peso predefinido, a la estimación del espectro del ruido de fondo anterior, multiplicado por un factor de olvido. Estas operaciones se describen en la siguiente ecuación 11:
11N_{n}(s) = \lambda N_{n-1} (s) + (1 - \lambda) S (s)
\hskip1cm
s = 0,...11
en la que N_{n-1}(s) es el componente de la estimación del espectro del ruido de fondo en la banda de frecuencias de cálculo s a partir de la trama anterior (trama n-1), S(s) es la banda de frecuencias de cálculo s-ésima del espectro de potencia de la trama actual, N_{n}(s) es el componente correspondiente de la estimación del espectro del ruido de fondo en la trama actual, y \lambda es el factor de olvido.
Los factores de olvido están dispuestos de manera que pueden afrontar más eficazmente el uso de espectros de amplitud en la actualización de las estadísticas de ruido proporcionadas por la ecuación 11. En el dominio de la amplitud se usan constantes de tiempo relativamente rápidas con factores de olvido más pequeños para la actualización en sentido ascendente, y constantes de tiempo más lentas para la actualización en sentido descendente. Las constantes de tiempo se varían también para adaptarse a los cambios grandes y pequeños. Se produce una actualización rápida en la dirección del sentido ascendente cuando un componente espectral se debe actualizar con un valor mucho mayor que la estimación anterior, y se produce una actualización lenta en la dirección del sentido descendente cuando el componente espectral nuevo es bastante menor que la estimación antigua. Por otro lado, para actualizar valores de componentes espectrales en las proximidades de una estimación antigua se usan constantes de tiempo algo más lentas.
Como el VAD 336 proporciona solamente una salida de dos estados, la identificación del comienzo de la pronunciación de unas palabras implica una solución de compromiso. En el comienzo de la pronunciación de unas palabras, puede que el VAD 336 continúe marcando ruido. De este modo, puede que la primera trama de voz se clasifique erróneamente como ruido y consecuentemente la estimación del espectro del ruido de fondo se podría actualizar con un espectro que contenga voz. Puede producirse una situación similar al final de la pronunciación de unas palabras.
Tal como se describe de forma más detallada posteriormente, este problema se afronta proyectando una ventana de decisiones del VAD 336 antes y después de una trama anterior a la trama que se está usando para actualizar la estimación del espectro del ruido de fondo en el bloque 334. A continuación, el espectro de fondo se puede actualizar con un retardo (actualización retardada) por medio de un espectro de amplitud almacenado correspondiente a una trama antigua.
En la presente solicitud, la actualización de la estimación del espectro del ruido de fondo se lleva a cabo en dos fases. En primer lugar, en el bloque 332 se crea una estimación temporal del espectro de potencia actualizando la estimación del espectro del ruido de fondo con el espectro de amplitud de la trama actual. Para que este proceso de actualización tenga lugar, debería cumplirse una de entre las siguientes tres condiciones:
1.
las decisiones del VAD 336 correspondientes a la trama actual y las tres tramas anteriores son "0" (indicando solamente ruido);
2.
se determina que la señal es estable para un número requerido de tramas; o
3.
el espectro de potencia de la trama actual es menor que la estimación del espectro del ruido de fondo para alguna banda de frecuencias.
En segundo lugar, la estimación temporal resultante del espectro de potencia (del bloque 332) se usa como la estimación real del espectro del ruido de fondo para la siguiente trama, a no ser que la decisión del VAD correspondiente a esa trama sea un "1" y las tres tramas anteriores (es decir, inmediatamente precedentes) produjeran una decisión del VAD de "0". En este caso, correspondiente, por ejemplo, al comienzo de la pronunciación de unas palabras, la estimación anterior del espectro del ruido de fondo se copia del bloque 334 a la estimación del espectro de potencia temporal del bloque 332 para fijar en condiciones iniciales la estimación.
También pueden surgir dificultades debido a que el proceso de estimación del espectro del ruido de fondo está controlado por la decisión del VAD 336, aunque la propia decisión del VAD 336 se basa en la estimación del espectro del ruido de fondo del bloque 334. Si el nivel del ruido de fondo aumenta repentinamente, las tramas de entrada se pueden interpretar como voz y no se realizará ninguna actualización de la estimación del espectro del ruido de fondo. Esto provoca que la estimación del espectro del ruido de fondo pierda la pista del ruido real.
\newpage
Para hacer frente a este problema, se usa un método de recuperación. En el bloque 338 se evalúa la estabilidad de la señal de entrada durante periodos que el VAD 336 clasifica como voz. Se mantiene un contador al que se hace referencia como "contador de detecciones falsas de voz" para mantener un registro de decisiones sucesivas de "1" del VAD 336. Inicialmente, el contador se fija a 50, correspondiente a 0,5 s (50 tramas). Si se considera que la señal de entrada es suficientemente estable y la trama actual se interpreta como voz, el contador de detecciones falsas de voz se decrementa. Si se indica estabilidad y el VAD da como salida un "0" para la trama actual, pero algunas de las tramas anteriores produjeron un "1", el contador no se modifica. Si se determina que la señal de entrada es no estable, el contador se vuelve a fijar a un valor de inicialización. Cada vez que el contador alcanza el valor cero, se actualiza la estimación del espectro del ruido de fondo en el bloque 334. Finalmente, si se obtienen 12 decisiones consecutivas de "0" del VAS, también se fija en condiciones iniciales el contador de detecciones falsas de voz. Esta acción se basa en la consideración de que dicha sucesión de decisiones de "0" del VAD indica implícitamente que la estimación del espectro del ruido de fondo en el bloque 334 ha alcanzado nuevamente el nivel de ruido predo-
minante.
Para decidir si la trama actual representa una señal estable, en el bloque 340 se mantiene un promedio de corta duración del espectro de amplitud de la señal de entrada por medio de un promediado recursivo. Los componentes del espectro de amplitud de la trama actual se dividen por los componentes correspondientes del espectro promediado en el tiempo, y si cualquiera de los cocientes resulta menor que uno, el mismo se sustituye por el inverso. Si la suma de los cocientes resultantes supera un valor umbral predefinido, se determina que la señal es no estable; en cualquier otro caso se indica estabilidad. Los componentes del promedio de corta duración del espectro de amplitud (mantenido mediante un promediado recursivo en el bloque 340) se inicializan a cero ya que los mismos varían solo ligeramente de una forma más lenta que el espectro de amplitud de las tramas de entrada.
Además del planteamiento básico de actualización basado en el VAD y del método de recuperación antes descrito, los componentes de la estimación del espectro del ruido de fondo en cada trama se actualizan si el componente correspondiente del espectro de amplitud de la trama actual es menor que la estimación del espectro del ruido de fondo actual. Esto permite obtener una rápida recuperación con respecto a (1) valores elevados de inicialización de los componentes del espectro del ruido de fondo (que se describirán posteriormente) (2) una actualización forzada errónea que se pudiera producir durante una trama de voz real. Esta forma adicional de actualización, a la que se hace referencia como "actualización a la baja" se basa en el hecho de que el ruido solo no puede presentar nunca una amplitud mayor que el ruido más la voz. La actualización a la baja se lleva a cabo actualizando la estimación temporal del espectro del ruido de fondo en el bloque 332.
En el inicio, los componentes de la estimación del espectro del ruido de fondo en el bloque 334 se inicializan a valores que representan una amplitud elevada. De esta manera, se puede tratar un amplio intervalo de posibles señales iniciales de entrada sin encontrarse con el problema de que la estimación del espectro del ruido de fondo pierda la pista del ruido. Se aplica la misma inicialización a la estimación temporal del espectro del ruido de fondo en el bloque 332 usado para la actualización retardada.
El funcionamiento del supresor de ruido 44 se controla de manera que suprime eficazmente ruido en la dirección del enlace descendente. En particular, su funcionamiento se controla de manera que las estimaciones de potencia de la señal y los niveles de amplitud, particularmente la estimación del espectro del ruido de fondo en el bloque 334, no se modifiquen erróneamente. Podría producirse una modificación errónea de este tipo como consecuencia de errores del canal de transmisión. Los errores de los canales pueden provocar que se dañen o pierdan una serie de tramas, por ejemplo unas cuantas decenas de tramas o un número mayor. Tal como se ha mencionado anteriormente, si se detectan errores de canal los mismos se ocultan, típicamente repitiendo (o realizando una extrapolación de) la última trama de voz buena mientras se aplica una atenuación rápidamente creciente.
Durante el tiempo en el que no se reciben tramas, no se recibe ni voz ni ruido y por lo tanto la estimación temporal del espectro del ruido de fondo en el bloque 332 y la estimación del espectro del ruido de fondo en el bloque 334 tienden a disminuir. Consecuentemente, el supresor de ruido 44 puede perder la pista del espectro de ruido verdadero. Si no se hiciera nada para compensar este efecto, cuando el canal quedara libre y se recibieran tramas de nuevo correctamente, la supresión de ruido tendría lugar sobre la base de una estimación reducida del espectro del ruido de fondo. Por lo tanto, la supresión de ruido proporcionada por el supresor de ruido no resultaría tan eficaz y el nivel de ruido escuchado por un usuario del terminal móvil se incrementaría repentinamente. Además, después de dicha interrupción, es necesario que los bloques 332 y 334 reconstruyan sus estimaciones del espectro del ruido de fondo basándose en el espectro del ruido verdadero, para restablecer su precisión. Hasta que no se obtenga otra vez una estimación razonable, la estimación del ruido resultará incorrecta y la misma será escuchada por el usuario como un cambio repentino del tipo de ruido. Dichos cambios del tipo de ruido y del nivel de ruido resultan molestos para los usuarios.
Adicionalmente, las tramas de voz erróneas, que el decodificador de voz 34 no consigue detectar como erróneas, provocan que el mismo de salida a tramas de voz falsas que presentan unos niveles elevados de energía distribuida aleatoriamente. El supresor de ruido 44 no puede atenuar la señal en dichas tramas.
El uso de una transmisión discontinua (DTX) o algún tipo similar de función, tal como una conmutación accionada por voz (VOX), provoca problemas similares. Tal como se ha descrito anteriormente, durante una DTX se genera un espectro de ruido de confort y en lugar de ruido verdadero se reproduce ruido de confort. Si el espectro del ruido de confort es diferente al espectro del ruido verdadero, por ejemplo, si el espectro del ruido verdadero varía mientras se reproduce el ruido de confort, en ese caso la estimación del espectro del ruido de fondo en el bloque 334 perderá la pista del espectro del ruido verdadero. Consecuentemente, cuando se interrumpe la DTX y se reciben otra vez tramas que contienen voz, el supresor de ruido 44 comienza a suprimir el ruido en la señal recibida usando la estimación del espectro de ruido de fondo previamente válida. Esta situación dará origen a una atenuación no óptima.
Para hacer frente a los problemas provocados por los efectos de las tramas de voz defectuosas y la DTX, los mismos también se tienen en cuenta en la actualización de la estimación de larga duración del nivel de voz con ruido, así como en el VAD 336 y en las funciones de búsqueda de ganancia mínima.
Según uno de los ejemplos de la solicitud, se proporciona un teléfono móvil que dispone de supresores de ruido ubicados en los canales tanto de enlace ascendente como de enlace descendente. En un sistema de telecomunicaciones en el cual se comunican dos de dichos teléfonos móviles, una señal puede pasar a través de una serie de supresores de ruido en una disposición en cascada. Además, si también se usan supresores de ruido en la red celular, por ejemplo en conmutadores, transcodificadores u otros equipos de la red, todavía habrá presentes más supresores de ruido en la disposición en cascada. Dichos supresores de ruido se optimizan en general de forma independiente para proporcionar una atenuación máxima de ruido sin provocar ninguna distorsión molesta en la voz. No obstante, el uso de dos o más de dichas operaciones de supresión de ruido en cascada podría dar como resultado la distorsión de la
voz.
En una de las formas de realización de la invención, el supresor de ruido 44 está provisto de un detector para analizar la entrada con vistas a tener en cuenta el uso de un supresor de ruido en algún momento anterior en el camino de la voz. El detector monitoriza las condiciones de la SNR en la entrada del supresor de ruido 44 en el camino de enlace descendente (decodificación de la voz) y controla el cálculo de la ganancia de atenuación según la SNR estimada. En unas condiciones de una SNR buena, el nivel de supresión de ruido se reduce o se elimina completamente, ya que estas condiciones podrían ser el resultado de una fase anterior de reducción del ruido. En cualquier caso, en unas condiciones de una buena SNR en general la supresión de ruido resulta menos
necesaria.
Se establece una variable de control para el control de ganancia dependiente de la señal realizando una estimación de la SNR a posteriori de la banda completa efectiva correspondiente a la señal de entrada del supresor de ruido como la relación de estimaciones de larga duración de la potencia de la voz con ruido y la potencia del ruido de fondo. En el bloque 348 se calcula la SNR a posteriori de la banda completa. La expresión "banda completa efectiva" hace referencia al intervalo de frecuencias que abarcan las bandas de frecuencias de cálculo en el cálculo de la ganancia. Por razones prácticas, se realiza una estimación del inverso de la SNR a posteriori en lugar de la SNR real. Este planteamiento se usa principalmente debido a que se puede considerar siempre que la potencia de ruido es menor que o igual a la potencia de la voz con ruido. Esta situación simplifica los cálculos en aritmética de punto
fijo.
La SNR a posteriori, o snr_ap_i, se calcula como la relación de las estimaciones del nivel de ruido y de la voz con ruido \hat{N} y \hat{S} tal como se ha descrito anteriormente. En este caso, la relación del nivel de ruido con respecto al nivel de voz con ruido no se ha transformado a escala como en el caso del cálculo del factor de corrección SNR (ecuación 7) sino que se ha pasado un filtro pasabajas sobre las tramas de voz. La finalidad del filtrado es reducir los efectos de los cambios repentinos del nivel de voz o del ruido de fondo para suavizar el control de la atenuación. La estimación de la variable de control snr_ap_i se expresa de la manera siguiente:
12snr\_ap\_i_{n} = b \cdot snr\_ap\_i_{n-1} + (1 - b) \cdot min\left(max\_snr\_ap\_i, \frac{\hat{N}}{\hat{S}}\right)
en la que n es el número ordinal de la trama actual, b \varepsilon (0,1), \hat{N} es la estimación del nivel del ruido, \hat{S} es la estimación del nivel de voz con ruido, y max_snr_ap_i es el valor de saturación de snr_ap_i en la aritmética de punto fijo.
El mecanismo de control para limitar la atenuación del ruido en condiciones de una buena SNR se ha diseñado de manera que la atenuación en decibelios (dB) se reduce linealmente al aumentar la SNR en decibelios. Este método de cálculo pretende proporcionar una transición suave, imperceptible para un oyente. Por otra parte, el control queda restringido a un intervalo limitado de relaciones SNR de entrada.
La reducción de la atenuación se realiza mediante una subestimación del término correspondiente al espectro del ruido de fondo en la fórmula de ganancia de Wiener. En lugar de la ecuación 2 se usa una forma modificada de la fórmula para el cálculo de la ganancia:
13G(s) = \frac{\tilde{\xi}(s)}{u(snr\_ap\_i) + \tilde{\xi}(s)}
\newpage
La dependencia del término unitario u(snr_ap_i) con respecto a la variable de control snr_ap_i se puede hallar expresando la relación lineal en escalas de dB, a una atenuación máxima. A continuación se puede obtener la siguiente relación:
14u(snr\_ap\_i) = \xi\_min\left(\frac{1}{10^{B/20}}snr\_ap\_i^{A/2} - 1\right)
en la que \xi_min es el límite inferior de la SNR a priori, en términos de banda, obtenida a partir del bloque 344, y las constantes A y B se determinan por medio de los extremos inferior y superior del intervalo deseado de la atenuación nominal máxima del ruido (descartando el efecto de la corrección SNR) y de los extremos inferior y superior del intervalo usado de la variable de control snr_ap_i.
Para poder trabajar con dos mecanismos de control de ganancia que compiten entre si, y para evitar la atenuación no óptima que se produce en ciertas condiciones, los parámetros de control correspondientes al control de ganancia, y particularmente la variable de control y los intervalos de atenuación máxima, se seleccionan cuidadosamente de manera que la supresión de ruido más alta se obtiene en el intervalo en el que se esperan las mayores ventajas. Esto depende de que la estimación de las condiciones de la SNR se realice de forma suficientemente adecuada.
Aunque podrían esperarse problemas al combinar las funciones de ganancia, una en el enlace ascendente y otra en el enlace descendente, el primer supresor de ruido (enlace ascendente) en general mejora las condiciones de la SNR en la entrada del segundo supresor de ruido (enlace descendente). Por esta razón, esta situación se tiene en cuenta en la consideración de la instalación en tándem, de manera que se obtiene una función de ganancia combinada uniforme y esencialmente monótona.
El supresor de ruido 44 usa información referente a la aparición de tramas defectuosas y a las acciones pertinentes realizadas por el decodificador de voz cuando actúa como fase de postprocesado después de la decodificación de la voz.
La bandera de indicación de trama defectuosa obtenida a partir del decodificador de canal 32 se asigna a una entrada adecuada en un registro de banderas de control en el supresor de ruido en el que cada bandera reserva una posición de un bit. Cuando el decodificador de canal indica que se produce una trama defectuosa, se alza la bandera de trama defectuosa, por ejemplo, la misma se fija a 1. En cualquier otro caso, se fija a cero.
Inmediatamente después de que se haya detectado una ráfaga de tramas de voz perdidas, se hace que ciertas funciones controladas normalmente por el VAD 336 sean independientes con respecto a las decisiones del VAD 336. Adicionalmente, se congelan el estado del VAD 336 y el registro de desplazamiento que contiene decisiones antiguas del VAD mientras la bandera de indicación de trama defectuosa indica tramas defectuosas. Esta situación permite que aquellas funciones que dependen del VAD 336 usen las últimas decisiones "buenas" del VAD después de ráfagas de tramas defectuosas las cuales habitualmente tienen una duración corta. En la mayoría de los casos, esta opción minimiza las perturbaciones en el rendimiento del supresor de ruido, provocadas por las tramas defectuosas.
Para mantener el nivel y las formas espectrales correctas de la estimación del espectro del ruido de fondo, el mismo no se actualiza mientras la bandera de indicación de trama defectuosa está activada. En particular, no se actualiza la estimación temporal del espectro del ruido de fondo. No obstante, la actualización de la estimación del espectro del ruido de fondo se retarda sustituyéndola por la estimación temporal del espectro del ruido de fondo incluso aunque se estén marcando tramas defectuosas si la decisión actual del VAD 336 es "1" y la misma ha sido precedida por tres decisiones de "0" del VAD, tal como se ha descrito anteriormente. Como la estimación temporal del espectro del ruido de fondo no se actualiza, esto garantiza que en la estimación del espectro del ruido de fondo se incluye solamente la última información válida referente al espectro de ruido real.
Para proporcionar una referencia correcta en relación con la detección de la estabilidad en el bloque 338, el promedio de corta duración del espectro de potencia de la señal de entrada no se actualiza cuando se marcan tramas defectuosas. El contador de detecciones falsas de voz tampoco se actualiza mientras la bandera de indicación de trama defectuosa está activada para conservar su estado durante la sucesión de tramas defectuosas, lo cual típicamente dura poco tiempo.
Para obtener una reducción correcta del ruido de fondo en tramas repetidas y atenuadas, se debe tener en cuenta la atenuación proporcionada por el manejador de tramas defectuosas sobre la señal decodificada. Con este fin, la estimación del espectro del ruido de fondo (la cual se usa para generar la SNR a posteriori dividiendo el espectro de potencia de las tramas actuales componente a componente) se multiplica por la ganancia de atenuación de las tramas repetidas. En el bloque 346 se calcula la ganancia de atenuación de las tramas repetidas.
Durante las tramas defectuosas se deshabilita la actualización de la estimación del nivel de la voz con ruido \hat{S} calculada en el bloque 348. Cuando la bandera de indicación de trama defectuosa está activada se congelan también los valores retardados de las potencias de trama correspondientes a las dos últimas tramas usadas en la estimación del nivel de voz con ruido. De este modo, al procedimiento de actualización se le proporcionan las potencias de las tramas correspondientes a las últimas decisiones actualizadas del VAD.
En contraposición, durante las tramas defectuosas en el bloque 348 se actualiza continuamente la estimación del nivel de ruido \hat{N}. Este procedimiento viene motivado por el hecho de que la estimación del nivel de ruido \hat{N} se basa en la estimación del espectro del ruido de fondo, la cual está protegida por las medidas anteriores con respecto a los efectos de las tramas repetidas y atenuadas. De este modo, se puede aprovechar ciertamente el tiempo que transcurre durante las tramas defectuosas para obtener una estimación filtrada por pasabajas del nivel de ruido que está más próxima a la potencia promediada de la estimación del espectro del ruido.
Durante las tramas defectuosas se deshabilita la búsqueda de la ganancia mínima. Si no fuera así, la actualización de la memoria de ganancia con valores de ganancia reducidos predispondría la transición, por ejemplo, de las tramas defectuosas a las tramas de voz buenas, provocando que las primeras tramas de voz buenas (por ejemplo, una o dos) que vinieran a continuación de una secuencia de tramas defectuosas se atenuaran demasiado fuertemente.
En unas condiciones deficientes en relación con los errores de los canales, puede que el decodificador de canal 32 no pueda recuperar correctamente una trama y que por lo tanto reenvíe una trama totalmente errónea al decodificador de voz. Como los errores de canal se producen típicamente en ráfagas, las tramas defectuosas se producen habitualmente en grupos. Si la unidad de tratamiento de tramas defectuosas 38 del decodificador de voz 34 no consigue detectar una trama defectuosa y consecuentemente dicha trama se decodifica de forma normal, el resultado es típicamente una secuencia aleatoria con una energía elevada, lo cual produce un sonido muy molesto. No obstante, dicha trama errónea no provoca necesariamente problemas en el supresor de ruido 44. Una trama de este tipo, que contenga típicamente un contenido elevado de energía, no será incluida en la estimación del ruido de fondo ya que el VAD 336 debería marcar la presencia de voz. Además, la energía elevada de la trama no influirá significativamente en la estimación del nivel de la voz con ruido \hat{S}, ya que el factor de olvido se incrementará (en correspondencia con una constante de tiempo grande) según las reglas de la estimación del nivel de voz con ruido, en las que una diferencia grande entre la estimación actual y la potencia de la trama nueva provocará la selección de un factor de olvido de un valor elevado. Por otra parte, si no se producen demasiadas tramas erróneas de este tipo, para actualizar la estimación del nivel de la voz con ruido \hat{S} se usará probablemente el mínimo de las últimas tres potencias de trama en lugar de la trama errónea de alta potencia.
Si la ráfaga de tramas defectuosas de alta potencia no detectadas es larga (por ejemplo, si su duración es 0,5 s ó mayor), existe el peligro de que se pudiera activar la actualización forzada de la estimación del espectro del ruido de fondo. Aunque esta situación requiere una estabilidad de la entrada, dicha condición se podría cumplir si las tramas erróneas decodificadas se pareciesen al ruido blanco. No obstante, una ráfaga errónea tan larga ya podría desembocar en la interrupción de la llamada, haciendo que el peor de los casos, ya mencionado, en el que se inicia una actualización forzada resultase bastante improbable. Por otra parte, incluso si la estimación del espectro del ruido de fondo se actualizase a un nivel alto según tramas erróneas, el VAD 336 interpretaría la señal de entrada como ruido durante algún tiempo. Esta situación, junto con el procedimiento de actualización a la baja descrito anteriormente, permitiría que la estimación del espectro de ruido recobrase rápidamente la forma y el nivel perdidos del espectro de ruido, típicamente en unos pocos segundos.
Según la solicitud, se toman medidas en el supresor de ruido para hacer frente a los problemas que pueden surgir en una conexión de móvil-a-móvil en la que pueden prevalecer condiciones deficientes de los canales en uno cualquiera de los dos caminos de radiocomunicaciones. El supresor de ruido 44 que recibe tramas a través de dicha conexión deficiente de móvil-a-móvil, es decir, el supresor de ruido en la conexión de enlace descendente (decodificación de la voz), no puede obtener ninguna información sobre las condiciones del canal en la conexión del enlace ascendente (es decir, desde el móvil transmisor a la red). Por esta razón, el mismo es incapaz de generar ninguna indicación explícita de trama defectuosa. No obstante, la unidad de tratamiento de tramas defectuosas 38 en el decodificador de voz 34 de la conexión de enlace ascendente seguirá el procedimiento normalizado en el que se repite y atenúa la última trama buena, tal como lo hará el manejador de tramas defectuosas del decodificador de voz de enlace descendente 34. Consecuentemente, el supresor de ruido 44 en la conexión de enlace descendente recibe ráfagas de tramas altamente atenuadas sin ninguna información adjunta sobre tramas defectuosas.
Para hacer frente a este problema, el supresor de ruido de enlace descendente 44 actualiza a la baja lentamente la estimación temporal del espectro del ruido de fondo, el promedio de corta duración del espectro de potencia de voz y la estimación del nivel de voz con ruido si en la señal de entrada se detectan huecos antinaturales. En el proceso de actualización a la baja aplicado a la estimación temporal del espectro del ruido de fondo y al promedio de corta duración del espectro de potencia de la voz se usa un procedimiento de detección de huecos que comprende tres etapas de comparación. Las tres etapas son:
1.
Comparación de la potencia de entrada de cada banda de frecuencias de cálculo con un valor umbral pequeño.
2.
Comparación de la potencia de entrada de actualización con el nivel de la estimación actual en cada banda de frecuencias de cálculo.
3.
Comparación de la medida de la estabilidad con el valor umbral de estabilidad calculado en el bloque 338.
Las primeras dos etapas de comparación, introducidas anteriormente, se realizan para cada banda de frecuencias de cálculo. La finalidad de la tercera etapa de comparación es deshabilitar la acción de recuperación en condiciones de bajo ruido. Si el ruido se encuentra en un nivel bajo desde el comienzo de una llamada, el promedio de corta duración del espectro de amplitud de entrada no adopta nunca valores elevados y, consecuentemente, la medida de la estabilidad permanece a un nivel bajo. Por otro lado, si el nivel de ruido cae después de haber estado a un nivel alto, este procedimiento restablecerá la velocidad de actualización normal después de un periodo de tiempo, ya que el promedio de corta duración del espectro de amplitud de entrada alcanza un nivel inferior durante la actualización lenta.
En el caso de la estimación del nivel de voz con ruido, únicamente se llevan a cabo las primeras dos comparaciones anteriores y las mismas se realizan sobre las potencias de las bandas completas efectivas.
Incluso aunque el supresor de ruido 44 detecta fiablemente tramas perdidas, la estimación del espectro de ruido tiende a actualizarse fácilmente justo lo suficiente como para provocar que el VAD 336 interprete incorrectamente el ruido como voz después del silenciamiento de tramas. Para hacer frente a esta situación, se manipula el umbral de detección de estabilidad durante un periodo en el que se detecten tramas silenciadas para mejorar las posibilidades de que el supresor de ruido 44 detecte la voz correctamente. El umbral original se restablece en cuanto surja la siguiente ocasión en la que el contador de detecciones falsas de voz inicie una actualización forzada del espectro de fondo. Esta acción parece jugar un papel decisivo, ya que evita eficazmente la fijación a condiciones iniciales del contador de detecciones falsas de voz en transiciones hacia y desde tramas silenciadas, en las que la medida de la estabilidad adopta fácilmente valores elevados.
Este planteamiento para la detección de y la protección contra tramas silenciadas no detectadas puede identificar tramas en las cuales la señal casi se ha perdido o la misma se ha perdido totalmente. Además, estas medidas no provocan efectos negativos en situaciones en las cuales no hay presentes huecos de señal.
Tal como se ha mencionado anteriormente, un manejador DTX funciona conjuntamente con el decodificador de voz. Como la señal de ruido de confort producida en el receptor no es, en la práctica, nunca idéntica al componente de ruido original en el terminal transmisor (extremo distante), el supresor de ruido 44 en el extremo receptor se controla de manera que no se ve afectado por un cambio en la naturaleza del ruido de fondo durante periodos en los cuales la DTX está activa.
En el sistema GSM actual, se proporciona una bandera explícita en el decodificador de voz indicando si el modo de funcionamiento DTX está activado. En los códecs de voz GSM, la decisión de desactivar la transmisión durante pausas de voz se realiza en el manejador de Transmisión Discontinua (DTX) para la Transmisión (TX) del códec de voz. Al final de una ráfaga de voz, se tarda unas pocas tramas consecutivas en general una trama SID nueva la cual a continuación se usa para transportar parámetros del ruido de confort que describen las características estimadas del ruido de fondo para el decodificador. La transmisión de radiocomunicaciones se corta después de la transmisión de la trama SID y la bandera de Voz (bandera SP) se fija a cero. En cualquier otro caso, la bandera SP se fija a 1 para indicar transmisión de radiocomunicaciones.
Esta bandera de voz es recibida por el decodificador de voz y se usa también en el supresor de ruido 44 para fijar la bandera DTX, del registro de banderas de control del supresor de ruido, a 0 ó 1, respectivamente. La decisión de invocar el modo de funcionamiento destinado a periodos DTX se basa en el valor de esta bandera. En el modo DTX, se elude el VAD 336 del supresor de ruido 44 y la decisión del VAD se toma según indique el manejador DTX del códec de voz. De este modo, cuando la función DTX está activada, la decisión del VAD se fija a cero, con las consecuencias que se describen posteriormente.
La capacidad de las funciones DTX del códec de voz GSM de realizar una estimación del nivel y la forma espectrales del proceso de ruido de fondo es variable. Adicionalmente, la forma espectral del ruido de confort es habitualmente más plana que el espectro del ruido de fondo real. Por esta razón, el supresor de ruido 44 está configurado de manera que únicamente realiza una estimación del espectro del ruido de fondo en el bloque 334 durante tramas en las cuales no se está produciendo una DTX. Consecuentemente, la estimación del espectro temporal del ruido de fondo en el bloque 332 se produce únicamente en los momentos en los que la DTX está desactivada. No obstante, la copia de la estimación del espectro del ruido de fondo real está habilitada en todas las tramas para garantizar la inclusión de la última información útil en la estimación final del espectro del ruido de fondo usada en el proceso de actualización retardado antes descrito.
La actualización de la estimación del espectro del ruido de fondo en el bloque 334 no se produce mientras se está transmitiendo el ruido de confort y por lo tanto la detección de la estabilidad no se lleva a cabo durante dichas tramas. No obstante, después de que se haya transmitido un número de tramas de ruido de confort, probablemente una trama de voz nueva ya no presenta ninguna correlación con una trama de ruido de confort. Como consecuencia, el contador de detecciones falsas de voz se fija en condiciones iniciales. Esta fijación en condiciones iniciales se realiza después de dieciséis decisiones de pausa de voz del VAD 336 (tal como se ha explicado anteriormente, el VAD 336 está configurado para detectar pausas de voz mientras se transmite el ruido de confort).
En las tramas del ruido de confort, a la ganancia de atenuación del ruido se le asigna el valor mínimo permisible en todas las bandas de frecuencias de cálculo. Este valor de ganancia mínimo se determina sustituyendo \hat{\xi}'(s) por \xi_min en la ecuación 8 y sustituyendo el resultado en la ecuación 2. Debido a que se usa esta fórmula de ganancia especial, durante la generación del ruido de confort se puede deshabilitar el cálculo de la SNR a priori en el bloque 344. El vector de la "SNR a posteriori mejorada" de la trama anterior (la SNR a posteriori multiplicada por la ganancia de atenuación elevada al cuadrado), la cual se usa en el cálculo de la SNR a priori, calculada para la trama de voz más reciente, se mantiene hasta la siguiente trama de voz en la que pueda ser usado.
En una de las formas de realización de la invención, el supresor de ruido 44 se usa para compensar las variaciones de las características espectrales de la señal de ruido de confort generada durante tramas DTX, las cuales tienen su origen en imperfecciones de la estimación del espectro del ruido de fondo en los codificadores de voz. El supresor de ruido se puede usar para obtener una estimación relativamente fiable del espectro del ruido de fondo en el extremo distante (por ejemplo, en un terminal móvil transmisor). Por esta razón, esta estimación se puede usar, en el supresor de ruido 44, para modificar el nivel y la forma espectrales del ruido de confort generado. Esto implica la predicción del espectro del ruido residual que se obtendría a la salida del supresor de ruido 44 si el espectro de entrada se corresponde con la estimación actual del ruido de fondo y a continuación la modificación del espectro de amplitud de la señal del ruido de fondo de entrada de manera que se parezca a esta estimación del ruido residual. Se prefiere usar una solución de compromiso entre la atenuación constante en todas las bandas de frecuencias de cálculo, tal como se ha descrito anteriormente, y la modificación hacia el ruido residual estimado. Este planteamiento utiliza la información que han adquirido tanto el codificador de voz como el supresor de ruido 44 en relación con el ruido en el extremo distante.
Gracias a la naturaleza uniforme del ruido de confort generado en un decodificador de voz, no existe la necesidad de usar la función de búsqueda de ganancia mínima del bloque 350 para estabilizar el comportamiento de la ganancia de reducción de ruido durante las tramas de ruido de confort. Por otra parte, de esta manera, no se actualiza la memoria correspondiente de los valores antiguos del vector de ganancia en el bloque 352. De este modo, los vectores de ganancia almacenados en la memoria representarán las condiciones en las que la DTX está desactivada y, por lo tanto, se podrán aplicar de forma más adecuada a la condición en la que se haya restablecido el modo de funcionamiento normal (DTX desactivada).
En todos los códecs de voz GSM actuales, se proporciona una bandera explícita en el decodificador de voz que indica si el modo de funcionamiento DTX está activado. En el caso de otros sistemas, tales como el sistema PDC, en los que no existe dicha bandera explícita, el modo de repetición de tramas correspondiente se detecta en el supresor de ruido comparando las tramas de entrada con tramas anteriores y fijando una bandera VOX si las tramas consecutivas son muy similares.
Tal como se ha mencionado anteriormente, la sustitución y el silenciamiento de una trama de voz perdida o una trama SID perdida pueden provocar alguna interrupción en un flujo armonioso continuo del ruido de fondo sobre
la(s) trama(s) perdida(s) y desembocar en una impresión de una reducción notable de la fluencia en la señal transmitida, impresión que se hace más pronunciada si el volumen del ruido de fondo es elevado. Se hace frente a este problema en primer lugar ajustando la supresión de ruido en las tramas de voz perdidas y en segundo lugar generando un ruido de fondo seudorresidual (PRN) en el algoritmo, el cual a continuación se mezcla con la trama de voz atenuada o trama SID.
El ruido sintetizado, usado como fuente para la generación del PRN, se genera en el supresor de ruido 44 en el dominio de la frecuencia. Se crean componentes reales e imaginarios de un número de compartimentos FFT del espectro complejo del ruido de confort usando un generador de números aleatorios 354. Subsiguientemente, el espectro resultante se transforma a escala o se pondera en el bloque 356 según una estimación del espectro del ruido de fondo residual obtenido mediante la transformación a escala de la estimación del espectro del ruido de fondo del bloque 334 y usando las estimaciones del nivel de la voz con ruido y del ruido del bloque 348. A continuación, el espectro de ruido seudoaleatorio PRN así generado se mezcla con la trama repetida y atenuada una vez que ambos se han transformado a escala adecuadamente. Finalmente, el espectro de ruido artificial se transforma al dominio del tiempo a través de una IFFT 360, y se multiplica por una función de ventana 362 y a continuación se suma en el dominio del tiempo con las tramas originales repetidas atenuadas en el bloque 364 de manera que compense adecuadamente la reducción del nivel de ruido de fondo residual provocada por la atenuación del decodificador.
La transformación a escala de la estimación del ruido de fondo residual se lleva a cabo de la manera siguiente. Tal como se ha mencionado anteriormente, el nivel de atenuación usado en el decodificador de voz para las tramas repetidas en unas condiciones de trama defectuosa se determina comparando el promedio de la amplitud de la trama actual con el correspondiente a la última trama de voz buena para generar coeficientes de atenuación. Los coeficientes de atenuación se determinan a partir de una relación del promedio de la potencia de la trama repetida con respecto a un valor almacenado. El promedio de la potencia de la trama actual se almacena a continuación en la memoria de coeficientes de ganancia de atenuación 358.
Subsiguientemente, el complemento de la relación del promedio de la potencia de la trama de voz actual con respecto al promedio de la potencia almacenado de la última trama buena se usa para transformar a escala el espectro PRN generado de manera que cuando el nivel de ruido de fondo residual se atenúe, la aportación seudoaleatoria se incremente de forma correspondiente.
La suma de la estimación del ruido de fondo residual y el ruido seudoaleatorio transformado a escala produce la señal de voz de salida mejorada y(n) según la siguiente ecuación:
15y(n) = \hat{s}(n) + A \cdot (1 - G_{RFA} (n)) v(n),
\newpage
en la que \hat{s}(n) es la señal de voz o de ruido de confort atenuada por el manejador de tramas defectuosas 38 del decodificador de voz y procesada en el supresor de ruido 44, v(n) es la señal PRN y G_{RFA}(n) es el coeficiente de la ganancia de atenuación de las tramas repetidas correspondiente a la trama de voz n. A es una constante de escala que tiene un valor de aproximadamente 1,49. La constante de escala A surge a partir de dos aportaciones. En primer lugar, el cálculo de la estimación del espectro del ruido de fondo residual se realiza originariamente usando una señal a la que se le ha aplicado un ventanaje, mientras que el espectro complejo aleatorio se genera considerando una secuencia en el dominio del tiempo sin aplicación de ventanaje. En segundo lugar, a través de la IFFT, la energía del PRN se distribuye sobre la totalidad de las 128 muestras (la longitud de la FFT) aunque disminuye a medida que a la señal artificial se le aplica un ventanaje para adecuarse al ventanaje de la señal original. Por otro lado, el espectro del ruido de fondo residual se calcula únicamente a partir de 98 muestras de entrada de la señal original y 30 ceros (relleno con ceros). Por esta razón, la constante de escala A se usa de manera que no se subestime la energía del PRN.
En el códec de voz GSM de Velocidad Completa (FR), el retorno gradual desde el estado de silenciamiento se controla con respecto a la amplitud de bloque codificada seudologarítmica Xmaxcr de cada una de entre cuatro subtramas de una trama de voz. Si Xmaxcr supera la muestra correspondiente de una secuencia de recuperación de amplitud predefinida para cualquier trama durante el periodo de retorno gradual, dicha magnitud se acota según el valor de la muestra mencionada. La aparición de esta condición se le marca al supresor de ruido 44 de manera que se calcula el factor de escala correspondiente al espectro PRN tal como se ha descrito anteriormente. En cualquier otro caso, no se añade ningún PRN a la salida durante el periodo de recuperación.
Aunque la adición del PRN generado reduce las molestias provocadas por un nivel de ruido que varía rápidamente, también reduce la capacidad de la atenuación de tramas repetidas para informar al usuario sobre las condiciones del canal. No obstante, en la voz se producen huecos que informan al usuario sobre la existencia de un problema. En cualquier caso, para asegurarse de que al usuario se le mantiene informado sobre el deterioro de las condiciones del canal, se usa un mecanismo de desvanecimiento. Este mecanismo desactiva la adición del PRN después de un periodo de tiempo breve y de este modo permite que la señal silenciada se desvanezca completamente. Esta situación se alcanza usando un contador de tramas para determinar el número de tramas durante las cuales está activa la adición del PRN sin interrupciones. Cuando el contador supera un valor umbral, se hace que la ganancia del PRN se desvanezca gradualmente decrementándola de 1 a 0 en intervalos suficientemente pequeños durante un número predeterminado de tramas. En una de las formas de realización de la invención, el desvanecimiento se inicia después de un segundo de adición continua de PRN y el periodo de desvanecimiento es 200 ms.
En la Figura 5 se muestra un diagrama de flujo que muestra la interrelación de por lo menos algunas de las invenciones.
La Figura 6 muestra un sistema de comunicaciones móviles 600 que comprende una red celular 602 y terminales móviles 604. La red celular 602 comprende estaciones transceptoras base (BTS) 606 conectadas a centros de conmutación móvil (MSC) 608 a través de unidades de transcodificación (TRAU) 610. Los MSC están conectados a otra red 612 la cual transmite llamadas. Esta última puede formar parte de la red celular 602 ó puede ser una red telefónica pública conmutada (PTSN).
Cada uno de los terminales móviles 604 comprende un supresor de ruido 614 para suprimir ruido tanto en la señal transmitida como en las señales recibidas por los terminales móviles 604.
Cuando se usa un terminal móvil 604 para realizar una llamada, el mismo produce una señal digital a la cual se le suprime el ruido en su supresor de ruido 614, se le codifica la voz en su codificador de voz y se codifica en canal en su codificador de canal. A continuación, la señal codificada se transmite en una dirección de enlace ascendente hacia la red celular 602 en la que es recibida por la estación transceptora base 606 y a continuación decodificada en las unidades de transcodificación 610 de vuelta a una señal digital la cual se puede transmitir hacia delante, por ejemplo, a una PSTN o a otro terminal móvil 604. En este último caso, la señal se transmite en una dirección de enlace descendente hacia una unidad de transcodificación 610 en la que se vuelve a codificar y a continuación es transmitida por la estación transceptora base 606 a otro terminal móvil 604 en el que se decodifica y a continuación se suprime el ruido en el supresor de ruido 614.
Los supresores de ruido pueden estar presentes en otros puntos de la red. Por ejemplo, los mismos se pueden proporcionar en asociación con las unidades de transcodificación 610 de manera que actúen bien sobre una señal después de que la misma haya sido decodificada o bien sobre una señal antes de que haya sido decodificada. Además de ubicar supresores de ruido en la red 602 de esta manera, también se pueden proporcionar otras características de la invención en la red. Por ejemplo, las unidades de transcodificación 610 pueden proporcionar indicaciones DTX y BFI. Las mismas pueden ser usadas por los supresores de ruido de la red para controlar la supresión de ruido tal como se ha descrito anteriormente. Además, las unidades de transcodificación 610 incorporan las siguientes características
un detector para detectar y llenar huecos provocados por tramas perdidas que han sido sustituidas por tramas repetidas y atenuadas en una unidad anterior de tratamiento de tramas defectuosas; y
funciones de control para controlar la supresión de ruido con vistas a afrontar consideraciones de instalación en tándem.
No obstante, estas características de la invención, es decir, el detector y/o las funciones de control, también se pueden proporcionar de forma alternativa o adicional en los terminales móviles 604, particularmente para tratar una señal de enlace ascendente.
Debería indicarse que los diversos aspectos de la invención son independientes y pueden funcionar de forma independiente. Por esta razón, en el terminal móvil o en la red se pueden incorporar uno cualquiera o más de los aspectos según se desee.
Si el supresor de ruido 44 se usa en una conexión de enlace descendente en la cual existen códecs de voz de velocidad variable, tales como los correspondientes usados en la normativa de codificación de voz CDMA, es necesario afrontar cuestiones adicionales. Las diversas velocidades binarias de codificación de la voz, activadas según las características de la señal de entrada en el extremo distante (es decir, transmisor), producen señales de salida de voz y ruido profundamente diferentes. Por otra parte, en la velocidad binaria más baja se aplica típicamente alguna atenuación del nivel de la señal de salida y esto produce una señal que se puede considerar esencialmente como un tipo de ruido de confort. Por esta razón, una aplicación satisfactoria del supresor de ruido de enlace descendente conjuntamente con un códec de voz de velocidad variable requiere:
1.
El uso de varias estimaciones del espectro del ruido de fondo en correspondencia con cada una de las velocidades binarias de codificación de voz disponibles;
2.
El uso de conjuntos de parámetros especializados para la actualización de la estimación de la potencia y el cálculo de la ganancia de atenuación conjuntamente con cada una de las velocidades binarias disponibles;
3.
El uso de un cálculo de ganancia diferente conjuntamente con las velocidades binarias disponibles;
4.
El uso de información sobre cualquier atenuación de nivel aplicada a señales codificadas con velocidades binarias bajas.
En un sistema que utiliza un códec de voz de velocidad variable, para que el supresor de ruido funcione eficazmente es preferible usar información sobre la velocidad binaria usada de codificación de la voz que proporciona el decodificador de voz.
Uno de los propósitos de la presente invención es conseguir que la supresión de ruido sea viable, cuando se desee, como fase de postprocesado para un decodificador de voz. Con este fin, el supresor de ruido usa información del códec de voz referente a su estado (DTX) y al estado del canal.
Aunque se han mostrado y descrito formas de realización preferidas de la invención, debe entenderse que dichas formas de realización se describen únicamente a título de ejemplo. Los expertos en la materia se les ocurrirán múltiples variaciones, cambios y sustituciones sin apartarse por ello del alcance de la presente invención, el cual queda limitado únicamente por las reivindicaciones adjuntas. Por consiguiente, las siguientes reivindicaciones están destinadas a incluir todas estas variaciones o equivalentes ya que las mismas quedan comprendidas dentro del alcance de la invención.

Claims (19)

1. Supresor de ruido (300) para suprimir ruido en una señal (314) que contiene ruido de fondo, comprendiendo el supresor de ruido un estimador para realizar estimaciones de un espectro de ruido de fondo (332, 334), en el que se usa una indicación de por lo menos uno de entre una unidad de transmisión discontinua (36) y un detector de errores de canal (38) para controlar la estimación del espectro del ruido de fondo.
2. Supresor de ruido según la reivindicación 1, en el que se suspende la actualización del espectro del ruido de fondo estimado durante periodos en los cuales el detector de errores de canal detecta errores de canal en la señal.
3. Supresor de ruido según la reivindicación 1 ó 2, que comprende un detector de actividad vocal (336) para controlar la estimación del espectro del ruido de fondo.
4. Supresor de ruido según la reivindicación 3, en el que el espectro del ruido de fondo estimado se actualiza cuando el detector de actividad vocal indica que no hay presencia de voz.
5. Supresor de ruido según la reivindicación 3 ó 4, en el que se usa una indicación de un detector de errores de canal para controlar la estimación del espectro del ruido de fondo, y en el cual el estado del detector de actividad vocal y/o su memoria de decisiones anteriores de presencia/no presencia de voz se congela/congelan cuando el detector de errores de canal detecta errores de canal.
6. Supresor de ruido según cualquiera de las reivindicaciones anteriores, en el que se usa una indicación de un detector de errores de canal para controlar la estimación del espectro del ruido de fondo, y en el cual se suspende la actualización del espectro del ruido de fondo estimado durante periodos en los cuales la unidad de transmisión discontinua está indicando que no se está transmitiendo la señal.
7. Supresor de ruido según la reivindicación 6, en el que un generador de ruido de confort genera un ruido de confort durante periodos de tiempo en los cuales no se está transmitiendo la señal.
8. Método de supresión de ruido para suprimir ruido en una señal que contiene ruido de fondo, que comprende las siguientes etapas:
se realiza una estimación de un espectro de ruido de fondo;
se usa el espectro de ruido de fondo para suprimir ruido en la señal;
se recibe una indicación para indicar el funcionamiento de por lo menos uno de entre una unidad de transmisión discontinua y un detector de errores de canal; y
se usa la indicación para controlar la etapa en la que se realiza la estimación del espectro del ruido de fondo.
9. Método de supresión de ruido según la reivindicación 8, que comprende la etapa en la que se suspende la actualización del espectro del ruido de fondo estimado durante periodos en los cuales el detector de errores de canal está detectando errores de canal en la señal.
10. Método según la reivindicación 8 ó la reivindicación 9, que comprende la etapa en la que se controla la estimación del espectro del ruido de fondo con un detector de actividad vocal.
11. Método de supresión de ruido según la reivindicación 10, que comprende la etapa en la que se actualiza el espectro del ruido de fondo estimado cuando el detector de actividad vocal indica que no hay presencia de voz.
12. Método de supresión de ruido según la reivindicación 10 u 11, en el que se usa una indicación de un detector de errores de canal para controlar la etapa en la que se realiza la estimación del espectro del ruido de fondo, y que además comprende la etapa en la que se congelan el estado del detector de actividad vocal y/o su memoria de decisiones anteriores de presencia/no presencia de voz cuando el detector de errores de canal detecta errores de canal.
13. Método de supresión de ruido según cualquiera de las reivindicaciones 8 a 12, en el que se usa una indicación de un detector de errores de canal para controlar la etapa en la que se realiza la estimación del espectro del ruido de fondo, y que además comprende la etapa en la que se suspende la actualización del espectro del ruido de fondo estimado durante periodos en los cuales la unidad de transmisión discontinua indica que no se está transmitiendo la señal.
14. Método de supresión de ruido según la reivindicación 13, que comprende la etapa en la que un generador de ruido de confort genera un ruido de confort durante periodos de tiempo en los cuales no se transmite la señal.
15. Método de supresión de ruido según cualquiera de las reivindicaciones 8 a 14, que se usa en un camino de transmisión en un sistema de comunicaciones inalámbricas.
16. Método de supresión de ruido según la reivindicación 15, que se encuentra en un camino inalámbrico de enlace descendente desde una red de comunicaciones a un terminal de comunicaciones.
17. Terminal móvil (10), que comprende un supresor de ruido según cualquiera de las reivindicaciones 1 a 7, una unidad de transmisión discontinua y un detector de errores de canal.
18. Sistema de comunicaciones móviles (600), que comprende una red de comunicaciones móviles (602) y una pluralidad de terminales móviles (604) según la reivindicación 17.
19. Sistema de comunicaciones móviles, que comprende un supresor de ruido según cualquiera de las reivindicaciones 1 a 7, una unidad de transmisión discontinua y un detector de errores de canal.
ES00977618T 1999-11-15 2000-11-13 Supresion de ruido. Expired - Lifetime ES2277861T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI19992452 1999-11-15
FI992452A FI116643B (fi) 1999-11-15 1999-11-15 Kohinan vaimennus

Publications (1)

Publication Number Publication Date
ES2277861T3 true ES2277861T3 (es) 2007-08-01

Family

ID=8555598

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00977618T Expired - Lifetime ES2277861T3 (es) 1999-11-15 2000-11-13 Supresion de ruido.

Country Status (11)

Country Link
US (2) US6810273B1 (es)
EP (1) EP1232496B1 (es)
JP (1) JP4897173B2 (es)
CN (2) CN1303585C (es)
AT (1) ATE350747T1 (es)
AU (1) AU1526601A (es)
CA (1) CA2384963C (es)
DE (1) DE60032797T2 (es)
ES (1) ES2277861T3 (es)
FI (1) FI116643B (es)
WO (1) WO2001037265A1 (es)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3070560B1 (en) * 2015-03-16 2023-12-27 Rockwell Automation Technologies, Inc. System and method for determining sensor margins and/or diagnostic information for a sensor

Families Citing this family (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US6473733B1 (en) * 1999-12-01 2002-10-29 Research In Motion Limited Signal enhancement for voice coding
JP2001318694A (ja) * 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
EP1241600A1 (de) * 2001-03-13 2002-09-18 Siemens Schweiz AG Verfahren und Kommunikationssystem zur Generierung von Antwortmeldungen
FR2824978B1 (fr) * 2001-05-15 2003-09-19 Wavecom Sa Dispositif et procede de traitement d'un signal audio
DE10138650A1 (de) * 2001-08-07 2003-02-27 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verschlüsseln eines diskreten Signals sowie Verfahren und Vorrichtung zur Entschlüsselung
DE10150519B4 (de) * 2001-10-12 2014-01-09 Hewlett-Packard Development Co., L.P. Verfahren und Anordnung zur Sprachverarbeitung
GB2382748A (en) * 2001-11-28 2003-06-04 Ipwireless Inc Signal to noise plus interference ratio (SNIR) estimation with corection factor
JP3561261B2 (ja) * 2002-05-30 2004-09-02 株式会社東芝 データ通信装置及び通信制御方法
DE10251603A1 (de) * 2002-11-06 2004-05-19 Dr.Ing.H.C. F. Porsche Ag Verfahren zur Störgeräuschunterdrückung
US7103729B2 (en) * 2002-12-26 2006-09-05 Intel Corporation Method and apparatus of memory management
US20040125965A1 (en) * 2002-12-27 2004-07-01 William Alberth Method and apparatus for providing background audio during a communication session
US7738848B2 (en) * 2003-01-14 2010-06-15 Interdigital Technology Corporation Received signal to noise indicator
US20040235423A1 (en) * 2003-01-14 2004-11-25 Interdigital Technology Corporation Method and apparatus for network management using perceived signal to noise and interference indicator
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
US7024358B2 (en) * 2003-03-15 2006-04-04 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
KR100506224B1 (ko) 2003-05-07 2005-08-05 삼성전자주식회사 이동 통신 단말기에서 노이즈 제어장치 및 방법
US20050091049A1 (en) * 2003-10-28 2005-04-28 Rongzhen Yang Method and apparatus for reduction of musical noise during speech enhancement
US7245878B2 (en) * 2003-10-28 2007-07-17 Spreadtrum Communications Corporation Method and apparatus for silent frame detection in a GSM communications system
CN1617606A (zh) * 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
CN100466671C (zh) * 2004-05-14 2009-03-04 华为技术有限公司 语音切换方法及其装置
US20060018457A1 (en) * 2004-06-25 2006-01-26 Takahiro Unno Voice activity detectors and methods
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
US10004110B2 (en) * 2004-09-09 2018-06-19 Interoperability Technologies Group Llc Method and system for communication system interoperability
FR2875633A1 (fr) * 2004-09-17 2006-03-24 France Telecom Procede et dispositif d'evaluation de l'efficacite d'une fonction de reduction de bruit destinee a etre appliquee a des signaux audio
SE0402372D0 (sv) * 2004-09-30 2004-09-30 Ericsson Telefon Ab L M Signal coding
US7917562B2 (en) * 2004-10-29 2011-03-29 Stanley Pietrowicz Method and system for estimating and applying a step size value for LMS echo cancellers
US7983720B2 (en) * 2004-12-22 2011-07-19 Broadcom Corporation Wireless telephone with adaptive microphone array
US20070116300A1 (en) * 2004-12-22 2007-05-24 Broadcom Corporation Channel decoding for wireless telephones with multiple microphones and multiple description transmission
US8509703B2 (en) * 2004-12-22 2013-08-13 Broadcom Corporation Wireless telephone with multiple microphones and multiple description transmission
US20060133621A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone having multiple microphones
US20060136201A1 (en) * 2004-12-22 2006-06-22 Motorola, Inc. Hands-free push-to-talk radio
CA2596341C (en) 2005-01-31 2013-12-03 Sonorit Aps Method for concatenating frames in communication system
US8102872B2 (en) * 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
FR2882458A1 (fr) * 2005-02-18 2006-08-25 France Telecom Procede de mesure de la gene due au bruit dans un signal audio
WO2006104555A2 (en) * 2005-03-24 2006-10-05 Mindspeed Technologies, Inc. Adaptive noise state update for a voice activity detector
WO2006116132A2 (en) * 2005-04-21 2006-11-02 Srs Labs, Inc. Systems and methods for reducing audio noise
NO324318B1 (no) * 2005-04-29 2007-09-24 Tandberg Telecom As Fremgangsmate og anordning for stoydeteksjon.
JP4551817B2 (ja) * 2005-05-20 2010-09-29 Okiセミコンダクタ株式会社 ノイズレベル推定方法及びその装置
WO2006136901A2 (en) * 2005-06-18 2006-12-28 Nokia Corporation System and method for adaptive transmission of comfort noise parameters during discontinuous speech transmission
JP2007124048A (ja) * 2005-10-25 2007-05-17 Ntt Docomo Inc 通信制御装置及び通信制御方法
GB2432758B (en) * 2005-11-26 2008-09-10 Wolfson Ltd Auto device and method
JP4863713B2 (ja) * 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
EP1814109A1 (en) 2006-01-27 2007-08-01 Texas Instruments Incorporated Voice amplification apparatus for modelling the Lombard effect
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8744844B2 (en) * 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
EP1821553B1 (en) 2006-02-16 2012-04-11 Imerj, Limited Method and system for converting a voice message into a text message
US7953069B2 (en) * 2006-04-18 2011-05-31 Cisco Technology, Inc. Device and method for estimating audiovisual quality impairment in packet networks
GB2437559B (en) * 2006-04-26 2010-12-22 Zarlink Semiconductor Inc Low complexity noise reduction method
US8934641B2 (en) 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
EP2038885A1 (en) * 2006-05-31 2009-03-25 Agere Systems Inc. Noise reduction by mobile communication devices in non-call situations
US20090287479A1 (en) * 2006-06-29 2009-11-19 Nxp B.V. Sound frame length adaptation
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
CN101193139B (zh) * 2006-11-20 2011-11-30 鸿富锦精密工业(深圳)有限公司 一种可滤除环境音的方法及其手机
US9058819B2 (en) * 2006-11-24 2015-06-16 Blackberry Limited System and method for reducing uplink noise
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
JP2008148179A (ja) * 2006-12-13 2008-06-26 Fujitsu Ltd 音声信号処理装置および自動利得制御装置における雑音抑圧処理方法
US8352257B2 (en) * 2007-01-04 2013-01-08 Qnx Software Systems Limited Spectro-temporal varying approach for speech enhancement
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
EP1995722B1 (en) 2007-05-21 2011-10-12 Harman Becker Automotive Systems GmbH Method for processing an acoustic input signal to provide an output signal with reduced noise
CN101321201B (zh) * 2007-06-06 2011-03-16 联芯科技有限公司 回声消除装置、通信终端及确定回声时延的方法
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8538492B2 (en) * 2007-08-31 2013-09-17 Centurylink Intellectual Property Llc System and method for localized noise cancellation
US8194871B2 (en) * 2007-08-31 2012-06-05 Centurylink Intellectual Property Llc System and method for call privacy
JP2009063928A (ja) * 2007-09-07 2009-03-26 Fujitsu Ltd 補間方法、情報処理装置
BRPI0816792B1 (pt) * 2007-09-12 2020-01-28 Dolby Laboratories Licensing Corp método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo
EP2191465B1 (en) * 2007-09-12 2011-03-09 Dolby Laboratories Licensing Corporation Speech enhancement with noise level estimation adjustment
JP5483000B2 (ja) * 2007-09-19 2014-05-07 日本電気株式会社 雑音抑圧装置、その方法及びプログラム
US8656415B2 (en) * 2007-10-02 2014-02-18 Conexant Systems, Inc. Method and system for removal of clicks and noise in a redirected audio stream
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
US8335308B2 (en) * 2007-10-31 2012-12-18 Centurylink Intellectual Property Llc Method, system, and apparatus for attenuating dual-tone multiple frequency confirmation tones in a telephone set
CN100555414C (zh) * 2007-11-02 2009-10-28 华为技术有限公司 一种dtx判决方法和装置
US7856252B2 (en) * 2007-11-02 2010-12-21 Agere Systems Inc. Method for seamless noise suppression on wideband to narrowband cell switching
US20090150144A1 (en) * 2007-12-10 2009-06-11 Qnx Software Systems (Wavemakers), Inc. Robust voice detector for receive-side automatic gain control
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
CN100550133C (zh) * 2008-03-20 2009-10-14 华为技术有限公司 一种语音信号处理方法及装置
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR101335417B1 (ko) * 2008-03-31 2013-12-05 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8275136B2 (en) 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8611556B2 (en) 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
US9373339B2 (en) * 2008-05-12 2016-06-21 Broadcom Corporation Speech intelligibility enhancement system and method
US9197181B2 (en) * 2008-05-12 2015-11-24 Broadcom Corporation Loudness enhancement system and method
US8300801B2 (en) * 2008-06-26 2012-10-30 Centurylink Intellectual Property Llc System and method for telephone based noise cancellation
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
EP2304719B1 (en) * 2008-07-11 2017-07-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, methods for providing an audio stream and computer program
ES2678415T3 (es) * 2008-08-05 2018-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica
US8914282B2 (en) * 2008-09-30 2014-12-16 Alon Konchitsky Wind noise reduction
US20100082339A1 (en) * 2008-09-30 2010-04-01 Alon Konchitsky Wind Noise Reduction
DE102009007245B4 (de) 2009-02-03 2010-11-11 Innovationszentrum für Telekommunikationstechnik GmbH IZT Funksignalempfang
CN102668411B (zh) * 2009-02-09 2014-07-09 华为技术有限公司 Dtx比特的映射方法和设备
GB2473267A (en) 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
GB2473266A (en) * 2009-09-07 2011-03-09 Nokia Corp An improved filter bank
EP2486735B1 (en) * 2009-10-08 2015-05-06 Widex A/S Method for control of adaptation of feedback suppression in a hearing aid, and a hearing aid
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
CN101859569B (zh) * 2010-05-27 2012-08-15 上海朗谷电子科技有限公司 数字音频信号处理降噪的方法
CN102576543B (zh) * 2010-07-26 2014-09-10 松下电器产业株式会社 多输入噪声抑制装置、多输入噪声抑制方法以及集成电路
US9263049B2 (en) * 2010-10-25 2016-02-16 Polycom, Inc. Artifact reduction in packet loss concealment
US8311817B2 (en) * 2010-11-04 2012-11-13 Audience, Inc. Systems and methods for enhancing voice quality in mobile device
US8831937B2 (en) * 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
US8983833B2 (en) * 2011-01-24 2015-03-17 Continental Automotive Systems, Inc. Method and apparatus for masking wind noise
US20140006019A1 (en) * 2011-03-18 2014-01-02 Nokia Corporation Apparatus for audio signal processing
CN103765511B (zh) * 2011-07-07 2016-01-20 纽昂斯通讯公司 嘈杂语音信号中的脉冲干扰的单信道抑制
US9282279B2 (en) 2011-11-30 2016-03-08 Nokia Technologies Oy Quality enhancement in multimedia capturing
CN103177728B (zh) * 2011-12-21 2015-07-29 中国移动通信集团广西有限公司 语音信号降噪处理方法及装置
US11021737B2 (en) 2011-12-22 2021-06-01 President And Fellows Of Harvard College Compositions and methods for analyte detection
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
JP2013148724A (ja) * 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
US9064497B2 (en) * 2012-02-22 2015-06-23 Htc Corporation Method and apparatus for audio intelligibility enhancement and computing apparatus
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
JP6162254B2 (ja) * 2013-01-08 2017-07-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法
PL3011557T3 (pl) 2013-06-21 2017-10-31 Fraunhofer Ges Forschung Urządzenie i sposób do udoskonalonego stopniowego zmniejszania sygnału w przełączanych układach kodowania sygnału audio podczas ukrywania błędów
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP6303340B2 (ja) * 2013-08-30 2018-04-04 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US9502028B2 (en) * 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
GB2519379B (en) 2013-10-21 2020-08-26 Nokia Technologies Oy Noise reduction in multi-microphone systems
US9437212B1 (en) * 2013-12-16 2016-09-06 Marvell International Ltd. Systems and methods for suppressing noise in an audio signal for subbands in a frequency domain based on a closed-form solution
EP3719801B1 (en) * 2013-12-19 2023-02-01 Telefonaktiebolaget LM Ericsson (publ) Estimation of background noise in audio signals
WO2015130283A1 (en) * 2014-02-27 2015-09-03 Nuance Communications, Inc. Methods and apparatus for adaptive gain control in a communication system
JP2015206874A (ja) * 2014-04-18 2015-11-19 富士通株式会社 信号処理装置、信号処理方法、及び、プログラム
CN106797512B (zh) 2014-08-28 2019-10-25 美商楼氏电子有限公司 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
US9886966B2 (en) 2014-11-07 2018-02-06 Apple Inc. System and method for improving noise suppression using logistic function and a suppression target value for automatic speech recognition
US9749746B2 (en) * 2015-04-29 2017-08-29 Fortemedia, Inc. Devices and methods for reducing the processing time of the convergence of a spatial filter
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US11483663B2 (en) 2016-05-30 2022-10-25 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
US10861478B2 (en) * 2016-05-30 2020-12-08 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
US10433076B2 (en) * 2016-05-30 2019-10-01 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
CN107123419A (zh) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 Sphinx语速识别中背景降噪的优化方法
EP3416167B1 (en) 2017-06-16 2020-05-13 Nxp B.V. Signal processor for single-channel periodic noise reduction
JP7155531B2 (ja) * 2018-02-14 2022-10-19 株式会社島津製作所 磁気浮上制御装置および真空ポンプ
EP3807878B1 (en) 2018-06-14 2023-12-13 Pindrop Security, Inc. Deep neural network based speech enhancement
JP7195344B2 (ja) 2018-07-27 2022-12-23 ドルビー ラボラトリーズ ライセンシング コーポレイション パーベイシブ・リステニングのための強制ギャップ挿入
KR102280692B1 (ko) * 2019-08-12 2021-07-22 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
CN114097031A (zh) * 2020-06-23 2022-02-25 谷歌有限责任公司 智能背景噪声估计器
TWI756817B (zh) * 2020-09-08 2022-03-01 瑞昱半導體股份有限公司 語音活動偵測裝置與方法
CN112259125B (zh) * 2020-10-23 2023-06-16 江苏理工学院 基于噪声的舒适度评价方法、系统、设备及可存储介质
US11915715B2 (en) 2021-06-24 2024-02-27 Cisco Technology, Inc. Noise detector for targeted application of noise removal
CN113421595B (zh) * 2021-08-25 2021-11-09 成都启英泰伦科技有限公司 一种利用神经网络的语音活性检测方法
JP2024532759A (ja) 2021-08-26 2024-09-10 ドルビー ラボラトリーズ ライセンシング コーポレイション ユーザ生成コンテンツにおける環境ノイズの検出

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5047930A (en) * 1987-06-26 1991-09-10 Nicolet Instrument Corporation Method and system for analysis of long term physiological polygraphic recordings
FI92535C (fi) * 1992-02-14 1994-11-25 Nokia Mobile Phones Ltd Kohinan vaimennusjärjestelmä puhesignaaleille
EP0707763B1 (en) * 1993-07-07 2001-08-29 Picturetel Corporation Reduction of background noise for speech enhancement
DE19520353A1 (de) * 1995-06-07 1996-12-12 Thomson Brandt Gmbh Verfahren und Schaltungsanordnung zur Verbesserung des Empfangsverhaltens bei der Übertragung von digitalen Signalen
FI100840B (fi) 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5771440A (en) * 1996-05-31 1998-06-23 Motorola, Inc. Communication device with dynamic echo suppression and background noise estimation
JP3297307B2 (ja) * 1996-06-14 2002-07-02 沖電気工業株式会社 背景雑音消去装置
US5835486A (en) * 1996-07-11 1998-11-10 Dsc/Celcore, Inc. Multi-channel transcoder rate adapter having low delay and integral echo cancellation
US5881373A (en) * 1996-08-28 1999-03-09 Telefonaktiebolaget Lm Ericsson Muting a microphone in radiocommunication systems
US5867574A (en) * 1997-05-19 1999-02-02 Lucent Technologies Inc. Voice activity detection system and method
KR100234330B1 (ko) * 1997-09-30 1999-12-15 윤종용 Ofdm 시스템 수신기의 보호 구간 종류 검출장치 및 그 방법
NO306027B1 (no) 1997-10-27 1999-09-06 Testtech Services As Apparat for å fjerne sand i en undervannsbrönn
EP1041539A4 (en) * 1997-12-08 2001-09-19 Mitsubishi Electric Corp METHOD AND DEVICE FOR PROCESSING THE SOUND SIGNAL
US6070137A (en) * 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
US6282176B1 (en) * 1998-03-20 2001-08-28 Cirrus Logic, Inc. Full-duplex speakerphone circuit including a supplementary echo suppressor
DE19822957C1 (de) * 1998-05-22 2000-05-25 Deutsch Zentr Luft & Raumfahrt Verfahren zur Detektion und Unterdrückung von Störsignalen in SAR-Daten und Einrichtung zur Durchführung des Verfahrens
CA2334195A1 (en) * 1998-06-08 1999-12-16 Telefonaktiebolaget Lm Ericsson System for elimination of audible effects of handover
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
CA2390200A1 (en) * 1999-11-03 2001-05-10 Charles W. K. Gritton Integrated voice processing system for packet networks
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
JP3566197B2 (ja) * 2000-08-31 2004-09-15 松下電器産業株式会社 雑音抑圧装置及び雑音抑圧方法
DE10222628B4 (de) * 2002-05-17 2004-08-26 Siemens Ag Verfahren zum Auswerten eines Zeitsignals, das eine spektroskopische Information beinhaltet

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3070560B1 (en) * 2015-03-16 2023-12-27 Rockwell Automation Technologies, Inc. System and method for determining sensor margins and/or diagnostic information for a sensor

Also Published As

Publication number Publication date
AU1526601A (en) 2001-05-30
CN1303585C (zh) 2007-03-07
DE60032797D1 (de) 2007-02-15
FI116643B (fi) 2006-01-13
US6810273B1 (en) 2004-10-26
CN1171202C (zh) 2004-10-13
EP1232496A1 (en) 2002-08-21
US7171246B2 (en) 2007-01-30
CA2384963C (en) 2010-01-12
CA2384963A1 (en) 2001-05-25
ATE350747T1 (de) 2007-01-15
JP4897173B2 (ja) 2012-03-14
US20050027520A1 (en) 2005-02-03
CN1390349A (zh) 2003-01-08
CN1567433A (zh) 2005-01-19
EP1232496B1 (en) 2007-01-03
FI19992452A (fi) 2001-05-16
WO2001037265A1 (en) 2001-05-25
JP2003514473A (ja) 2003-04-15
DE60032797T2 (de) 2007-11-08

Similar Documents

Publication Publication Date Title
ES2277861T3 (es) Supresion de ruido.
ES2329060T3 (es) Sistema y procedimiento para la expansion artificial mejorada del ancho de banda.
EP1337999B1 (en) Method and system for comfort noise generation in speech communication
Beritelli et al. Performance evaluation and comparison of G. 729/AMR/fuzzy voice activity detectors
ES2231812T3 (es) Eliminacion del eco acustico en un sistema de comunicaciones moviles digital.
ES2525427T3 (es) Un detector de voz y un método para suprimir sub-bandas en un detector de voz
KR100367533B1 (ko) 음성활동검출구동방식잡음교정기및,신호처리장치및방법
KR101038964B1 (ko) 에코 제거/억제 방법 및 장치
US20030043940A1 (en) Digital automatic gain control with feedback induced noise suppression
ES2371455T3 (es) Pre-procesamiento de datos digitales de audio para codecs de audio de móvil.
US9530430B2 (en) Voice emphasis device
JP2008065090A (ja) ノイズサプレス装置
JP2003501925A (ja) パラメトリックノイズモデル統計値を用いたコンフォートノイズの生成方法及び装置
JP4825944B2 (ja) レート判定誤りとそのアーティファクトの低減方法及び装置
KR100848798B1 (ko) 배경 노이즈의 고속 동적 추정을 위한 방법
US8144862B2 (en) Method and apparatus for the detection and suppression of echo in packet based communication networks using frame energy estimation
JP2003514264A (ja) 雑音抑圧装置
JP3603469B2 (ja) 音声品質改善装置
KR100624694B1 (ko) 통화 연결음 음질개선장치 및 그 방법
Gold et al. Vocoded speech through fading channels
Villette et al. A Multi-Rate Speech And Channel Codec: A GSM AMR Half-Rate Candidate
KR20100116102A (ko) 통신 시스템에서 신호를 송신하는 방법 및 장치