ES2277861T3 - Supresion de ruido. - Google Patents
Supresion de ruido. Download PDFInfo
- Publication number
- ES2277861T3 ES2277861T3 ES00977618T ES00977618T ES2277861T3 ES 2277861 T3 ES2277861 T3 ES 2277861T3 ES 00977618 T ES00977618 T ES 00977618T ES 00977618 T ES00977618 T ES 00977618T ES 2277861 T3 ES2277861 T3 ES 2277861T3
- Authority
- ES
- Spain
- Prior art keywords
- noise
- voice
- signal
- spectrum
- background noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000001629 suppression Effects 0.000 title claims abstract description 43
- 238000001228 spectrum Methods 0.000 claims abstract description 178
- 238000000034 method Methods 0.000 claims abstract description 57
- 230000005540 biological transmission Effects 0.000 claims abstract description 44
- 238000004891 communication Methods 0.000 claims abstract description 24
- 230000001755 vocal effect Effects 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 19
- 238000010295 mobile communication Methods 0.000 claims description 9
- 230000010267 cellular communication Effects 0.000 abstract 1
- 230000008014 freezing Effects 0.000 abstract 1
- 238000007710 freezing Methods 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 52
- 230000006870 function Effects 0.000 description 50
- 230000002238 attenuated effect Effects 0.000 description 23
- 230000002950 deficient Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 18
- 238000001514 detection method Methods 0.000 description 17
- 230000003595 spectral effect Effects 0.000 description 17
- 230000009467 reduction Effects 0.000 description 13
- 230000002829 reductive effect Effects 0.000 description 13
- 230000002123 temporal effect Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 11
- 238000013459 approach Methods 0.000 description 9
- 238000001914 filtration Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000012937 correction Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 230000001413 cellular effect Effects 0.000 description 6
- 238000011084 recovery Methods 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000006467 substitution reaction Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 206010027175 memory impairment Diseases 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 238000013213 extrapolation Methods 0.000 description 3
- 238000005562 fading Methods 0.000 description 3
- 230000030279 gene silencing Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000008054 signal transmission Effects 0.000 description 3
- 206010011376 Crepitations Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 206010013952 Dysphonia Diseases 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 210000004271 bone marrow stromal cell Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000009931 harmful effect Effects 0.000 description 1
- 230000005923 long-lasting effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Noise Elimination (AREA)
- Mobile Radio Communication Systems (AREA)
- Plural Heterocyclic Compounds (AREA)
- Surgical Instruments (AREA)
- Inorganic Insulating Materials (AREA)
- Superconductors And Manufacturing Methods Therefor (AREA)
- Materials For Medical Uses (AREA)
- Control Of Motors That Do Not Use Commutators (AREA)
- Telephone Function (AREA)
Abstract
Supresor de ruido (300) para suprimir ruido en una señal (314) que contiene ruido de fondo, comprendiendo el supresor de ruido un estimador para realizar estimaciones de un espectro de ruido de fondo (332, 334), en el que se usa una indicación de por lo menos uno de entre una unidad de transmisión discontinua (36) y un detector de errores de canal (38) para controlar la estimación del espectro del ruido de fondo.
Description
Supresión de ruido.
La presente invención se refiere a un supresor
de ruido y a un método de supresión de ruido. Se refiere
particularmente a un terminal móvil que incorpora un supresor de
ruido para suprimir ruido en una señal de voz. Uno de los
supresores de ruido según la invención se puede usar para suprimir
ruido acústico de fondo, particularmente en un terminal móvil que
funcione en una red celular.
Una de las finalidades de la supresión de ruido
o la mejora de la voz en un terminal telefónico móvil es reducir el
impacto del ruido ambiente sobre una señal de voz y mejorar de este
modo la calidad de la comunicación. En el caso de una señal de
enlace ascendente (transmisión, TX), se desea también minimizar los
efectos negativos provocados por este ruido en el proceso de
codificación de la voz.
En una comunicación de tipo presencial, el ruido
acústico de fondo es molesto para el oyente y hace que resulte más
difícil entender la voz. La inteligibilidad se mejora cuando un
hablante alza la voz de manera que se sitúe a un volumen mayor que
el ruido de fondo. En el caso de la telefonía, el ruido de fondo
resulta problemático debido a que no existe ninguna información
adicional proporcionada por expresiones y gestos faciales.
En la telefonía digital, una señal de voz se
convierte en primer lugar en una secuencia de muestras digitales en
un conversor analógico-a-digital
(A/D) y a continuación se comprime para su transmisión usando un
códec de voz. El término códec se usa para describir un par
codificador/decodificador de voz. En la presente descripción, la
expresión "codificador de voz" se usa para indicar el lado
codificador del códec de voz y la expresión "decodificador de
voz" se usa para indicar las funciones de decodificación del
códec de voz. Debería apreciarse que un códec de voz genérico se
puede implementar en forma de una sola unidad funcional, o en forma
de elementos independientes que implementen las operaciones de
codificación y de decodificación.
En la telefonía digital, el efecto nocivo del
ruido de fondo puede ser importante. Esto es debido al hecho de que
los códecs de voz están optimizados en general para obtener una
compresión eficaz y una reconstrucción aceptable de la voz y su
rendimiento puede verse perjudicado si hay ruido presente en la
señal de voz, o si se producen errores en la transmisión o la
recepción de la voz. Adicionalmente, la presencia del propio ruido
puede conducir a una distorsión en la señal del ruido de fondo
cuando la misma se codifica y se transmite.
El rendimiento deteriorado de un códec de voz
reduce tanto la inteligibilidad de la voz transmitida como su
calidad subjetiva. La distorsión de la señal de ruido de fondo
transmitida hace que se deteriore la calidad de la señal
transmitida, consiguiendo que la misma resulte más molesta de
escuchar y convirtiendo la información contextual en menos
reconocible al cambiar la naturaleza de la señal del ruido de fondo.
Consecuentemente, los trabajos en el campo de la mejora de la voz
se han concentrado en estudiar el efecto del ruido sobre el
rendimiento de la codificación de la voz y en producir métodos de
preprocesado para reducir el impacto del ruido sobre los códecs de
voz.
Los problemas antes descritos se refieren a
disposiciones en las cuales hay presente solamente un micrófono
para proporcionar solamente una señal. En dichas disposiciones, se
proporciona un supresor de ruido el cual puede interpretar la señal
de un solo canal para decidir qué partes de la misma representan la
voz esencial y qué partes representan el ruido.
Cuando un terminal móvil digital recibe una
señal de voz codificada, la misma es decodificada por la parte del
códec de voz del terminal correspondiente a la de codificación y es
suministrada a un altavoz o auricular para que pueda ser oída por
el usuario del terminal. En el camino de la decodificación de la voz
se puede proporcionar un supresor de ruido, después del
decodificador de voz, para reducir el componente de ruido en la
señal de voz recibida y decodificada. No obstante, en condiciones
ruidosas el rendimiento del decodificador de voz puede verse
afectado negativamente, dando como resultado uno o más de los
siguientes efectos:
- 1. El componente de voz de la señal puede sonar menos natural o áspero, ya que la información crítica requerida por el códec de voz para decodificar correctamente la señal de voz se ve modificada por la presencia de ruido.
- 2. El ruido de fondo puede sonar antinatural debido a que los códecs están optimizados en general para comprimir la voz en contraposición al ruido. Típicamente, esta situación da origen a un aumento de la periodicidad en el componente del ruido de fondo y puede ser suficientemente grave como para provocar la pérdida de información contextual transportada por la señal del ruido de fondo.
La información sobre una señal de voz codificada
se puede perder o dañar además durante la transmisión y la
recepción, por ejemplo, debido a errores en el canal de transmisión.
Esta situación puede dar origen a un deterioro adicional en la
salida del decodificador de voz, provocando que se pongan de
manifiesto perturbaciones adicionales en la señal de voz
decodificada. Cuando se usa un supresor de ruido en el camino de
decodificación de la voz, después de un decodificador de voz, un
rendimiento no óptimo del decodificador de voz puede provocar a su
vez que el supresor de ruido funcione con un comportamiento inferior
al óptimo.
Por esta razón, se debe tener especial cuidado
cuando se implementan supresores de ruido destinados a actuar sobre
señales de voz decodificadas. En particular, deben equilibrarse dos
factores en conflicto. Si el supresor de ruido proporciona
demasiada atenuación del ruido, esta situación puede revelar el
deterioro de la calidad de la voz provocado por el códec de voz. No
obstante, debido a las propiedades intrínsecas de los códecs de voz
típicos, los cuales están optimizados para la codificación y
decodificación de la voz, el ruido de fondo decodificado puede
sonar más molesto que la señal de ruido original y por lo tanto el
mismo se debería atenuar lo máximo posible. De este modo, en la
práctica, se observa que un nivel de reducción de ruido ligeramente
inferior puede ser óptimo para señales de voz decodificadas, en
comparación con el correspondiente que se puede aplicar a las
señales de voz antes de la codificación.
En general es deseable que cuando se use la
supresión de ruido durante la codificación y/o decodificación de la
voz, la misma debería reducir el nivel de ruido de fondo, minimizar
la distorsión de la voz provocada por el proceso de reducción del
ruido y mantener la naturaleza original del ruido de fondo de
entrada.
A continuación haciendo referencia a la Figura 1
se describirá una forma de realización de un terminal móvil que
comprende un supresor de ruido según la técnica anterior. El
terminal móvil y el sistema inalámbrico con el cual se comunica el
primero funcionan según la normativa del Sistema Global para
Telecomunicaciones Móviles (GSM). La Figura 1 muestra un terminal
móvil 10 el cual comprende una vía de transmisión (codificación de
la voz) 12 y una vía de recepción (decodificación de la voz) 14.
En la vía de transmisión (codificación de la
voz), un micrófono 16 capta una señal de voz, la misma es muestreada
por un conversor
analógico-a-digital (A/D) 18 y se
suprime el ruido en un supresor de ruido 20 para producir una señal
mejorada. Esta opción requiere realizar una estimación del espectro
del ruido de fondo de manera que se pueda suprimir el ruido de
fondo de la señal muestreada. Un supresor de ruido típico funciona
en el dominio de la frecuencia. En primer lugar la señal en el
dominio del tiempo se transforma al dominio de la frecuencia, lo
cual se puede llevar a cabo eficazmente usando una Transformada
Rápida de Fourier (FFT). En el dominio de la frecuencia, debe
diferenciarse la actividad vocal con respecto al ruido de fondo, y
cuando no exista actividad vocal, se realiza una estimación del
espectro del ruido de fondo. A continuación, se calculan
coeficientes de ganancia de supresión de ruido basándose en el
espectro de la señal de entrada actual y en la estimación del ruido
de fondo. Finalmente, la señal se transforma nuevamente al dominio
del tiempo usando una FFT inversa (IFFT).
La señal mejorada (con el ruido suprimido) es
codificada por un codificador de voz 22 para extraer un conjunto de
parámetros de voz los cuales se codifican seguidamente en el canal
en un codificador de canal 24 en el que se añade redundancia a la
señal de voz codificada para proporcionar cierto grado de protección
contra errores. A continuación, la señal resultante se convierte en
sentido ascendente en una señal de radiofrecuencia (RF) y es
transmitida por una unidad transmisora/receptora 26. La unidad
transmisora/receptora 26 comprende un filtro dúplex (no mostrado)
conectado a una antena para posibilitar que se produzca tanto la
transmisión como la recepción.
En el documento publicado WO97/22116 se describe
un supresor de ruido adecuado para ser usado en el terminal móvil
de la Figura 1.
Para alargar la vida de la batería, en los
sistemas de telecomunicaciones móviles se aplican típicamente
diferentes tipos de modos de funcionamiento de baja potencia,
dependientes de la señal de entrada. A estas disposiciones se les
hace referencia habitualmente como transmisión discontinua (DTX). La
idea básica de la DTX es interrumpir el proceso de
codificación/decodificación de la voz en los periodos en los que no
hay voz. La DTX está destinada además a limitar la cantidad de
datos que se transmite a través del enlace de radiocomunicaciones
durante las pausas de la voz. Ambas medidas tienden a reducir la
cantidad de potencia consumida por el dispositivo transmisor.
Típicamente, como sustitución del ruido de fondo real se produce
algún tipo de señal de ruido de confort, destinada a recordar el
ruido de fondo en el extremo transmisor. En la técnica son bien
conocidos los manejadores DTX tales como los códecs GSM de voz de
Velocidad Completa Mejorada (EFR), Velocidad Completa y Velocidad
Mitad.
Haciendo referencia nuevamente a la Figura 1, el
codificador de voz 22 está conectado a un manejador DTX de
transmisión (TX) 28. El manejador DTX TX 28 recibe una entrada de un
detector de actividad vocal (VAD) 30 el cual indica si existe un
componente de voz en la señal con ruido suprimido proporcionada como
salida del bloque supresor de ruido 20. El VAD 30 es básicamente un
detector de energía. Recibe una señal filtrada, compara la energía
de la señal filtrada con un umbral e indica voz siempre que se
supera el umbral. De este modo, indica si cada trama producida por
el codificador de voz 22 contiene ruido con presencia de voz o ruido
sin presencia de voz. La dificultad más significativa en la
detección de la voz en una señal generada por un terminal móvil es
que los entornos en los cuales se usan dichos terminales conducen
con frecuencia a relaciones voz/ruido bajas. La precisión del VAD
30 se mejora usando un filtrado para aumentar la relación voz/ruido
antes de tomar la decisión sobre la presencia de la voz.
De entre todos los entornos en los cuales se
usan los teléfonos móviles, las peores relaciones voz/ruido se
encuentran en general en los vehículos en movimiento. No obstante,
si el ruido es relativamente estable durante periodos prolongados,
es decir, si el espectro en amplitud del ruido no varía mucho con el
tiempo, es posible usar un filtro adaptativo con coeficientes
adecuados para eliminar gran parte del ruido del vehículo.
Los niveles de ruido en entornos en los que se
usan los terminales móviles pueden cambiar constantemente. También
puede cambiar el contenido frecuencial (espectro) del ruido, y el
mismo puede variar considerablemente dependiendo de las
circunstancias. Debido a estos cambios, el umbral y los coeficientes
del filtro adaptativo del VAD 30 se deben ajustar constantemente.
Para proporcionar una detección fiable, el umbral debe estar
suficientemente por encima del nivel de ruido para evitar que dicho
ruido se identifique falsamente como voz, aunque no tan por encima
como para que las partes de la voz de nivel bajo se identifiquen
como ruido. El umbral y los coeficientes del filtro adaptativo se
actualizan únicamente cuando no hay presencia de voz. Evidentemente,
no es razonable que el VAD 30 actualice estos valores basándose en
su propia decisión sobre la presencia de voz. Por esta razón, esta
adaptación únicamente se produce cuando la señal es sustancialmente
estable en el dominio de la frecuencia, pero no presenta el
componente de altura tonal inherente en la voz sonora. Para evitar
la adaptación durante los tonos de información se usa además un
detector de tonos.
Se usa un mecanismo adicional para garantizar
que el ruido de nivel bajo (el cual con frecuencia no es estable
durante periodos prolongados) no se detecta como voz. En este caso,
se usa un umbral fijo adicional de manera que las tramas de entrada
que presentan una potencia de trama por debajo del umbral se
interpretan como tramas de ruido.
Se usa un periodo de bloqueo del VAD para
eliminar el recorte de las ráfagas centrales de la voz de bajo
nivel. El bloqueo se añade únicamente a las ráfagas de voz que
superan una cierta duración para evitar picos de ruido prolongados.
En este aspecto el funcionamiento de un detector de actividad vocal
es conocido en la técnica.
La salida del VAD 30 es típicamente una bandera
binaria la cual se usa en el manejador DTX TX 28. Si en una señal
se detecta voz, se continúa con su transmisión. Si no se detecta
voz, se detiene la transmisión de la señal con ruido suprimido
hasta que se detecte nuevamente voz.
En la mayoría de sistemas de telecomunicaciones
móviles, la DTX se aplica en su mayor parte en la conexión del
enlace ascendente ya que la codificación y transmisión de la voz
consume típicamente mucha más energía que la recepción y la
decodificación de la voz, y debido a que el terminal móvil depende
típicamente de la energía limitada almacenada en su batería.
Durante periodos en los cuales no se produce ninguna transmisión de
una señal que supuestamente transporta voz, se genera ruido de
confort para proporcionar al oyente la ilusión de que la señal es,
de hecho, continua. Tal como se describe de forma más detallada
posteriormente, en algunos sistemas de telefonía celular, se genera
ruido de confort en el terminal receptor, basándose en la
información recibida desde el terminal transmisor que describe las
características del ruido en dicho terminal transmisor.
En general, en el decodificador de voz se
proporciona una bandera explícita que indica si el modo de
funcionamiento DTX está activado o no. Este es el caso
correspondiente, por ejemplo, a la totalidad de los códecs de voz
GSM. No obstante, existen otros casos, por ejemplo, redes Celulares
Digitales Personales (PDC), en las que se debe activar un modo de
repetición de tramas en el supresor de ruido comparando las tramas
de entrada con las anteriores y estableciendo una bandera de
conmutación accionada por voz (VOX) si las tramas consecutivas son
idénticas. Además, en una conexión
móvil-a-móvil, en la conexión del
enlace descendente no se proporciona información sobre la aparición
de la DTX en la conexión del enlace ascendente.
En algunos códecs de voz, tales como el códec
EFR GSM, la decisión de desactivar la transmisión durante las
pausas de la voz se toma en un manejador DTX del codificador de voz.
Al final de una ráfaga de voz, el manejador DTX usa unas pocas
tramas consecutivas para generar una trama descriptor de silencio
(SID) la cual se usa para transportar parámetros del ruido de
confort que describen estimaciones de las características del ruido
de fondo para el decodificador. Una trama descriptor de silencio
(SID) está caracterizada por una palabra de código SID.
Después de la transmisión de una trama SID, la
transmisión de radiocomunicaciones se corta y una bandera de voz
(bandera SP) se fija a cero. En cualquier otro caso, la bandera SP
se fija a 1 para indicar que se produce una transmisión de
radiocomunicaciones. La trama SID es recibida por el decodificador
de voz, el cual a continuación genera ruido con un perfil espectral
correspondiente a las propiedades descritas en la trama SID. Hacia
el decodificador se transmiten actualizaciones ocasionales de la
trama SID para mantener una correspondencia entre el ruido de fondo
en el terminal transmisor y el ruido de confort generado en el
terminal receptor. Por ejemplo, en un sistema GSM, se envía una
trama SID nueva una vez cada 24 tramas de la transmisión normal. La
entrega de actualizaciones ocasionales de trama SID según la manera
mencionada no solamente permite la generación de ruido de confort
con una precisión aceptable, sino que además reduce
significativamente la cantidad de información que se debe
transmitir a través del enlace de radiocomunicaciones. Esta opción
reduce el ancho de banda requerido para la transmisión y colabora
con el uso eficaz de los recursos de radiocomunicaciones.
En la vía de recepción (decodificación de la
voz) 14 del terminal móvil, la unidad transmisora/receptora 26
recibe una señal RF y la misma se convierte en sentido descendente
desde RF a una señal de banda base. La señal de banda base se
decodifica del canal por medio de un decodificador de canal 32. Si
el decodificador de canal detecta voz en la señal decodificada del
canal, la señal se decodifica en voz por medio de un decodificador
de voz 34.
El terminal móvil comprende además una unidad de
tratamiento de tramas defectuosas 38 para tratar tramas defectuosas
(es decir, dañadas). El Subsistema de Radiocomunicaciones (RSS)
señala una trama de tráfico defectuosa fijando a 1 una Indicación
de Trama Defectuosa (BFI). Si en el canal de transmisión se producen
errores, una decodificación normal de tramas de voz perdidas o
erróneas daría origen a que el oyente escuchase ruidos molestos.
Para tratar este problema, la calidad subjetiva de las tramas de
voz perdidas se mejora típicamente sustituyendo las tramas
defectuosas bien por una repetición o bien por una extrapolación de
una trama o tramas de voz buenas anteriores. Esta sustitución
proporciona una continuidad de la señal de voz y viene acompañada
por una atenuación gradual del nivel de salida, dando como
resultado el silenciamiento de la salida en un periodo de tiempo
bastante corto. Una trama de tráfico buena la señala el subsistema
de radiocomunicaciones con una BFI de 0.
En el manejador de Transmisión Discontinua (DTX)
de Recepción (RX) se encuentra una forma de realización de una
unidad de tratamiento de tramas defectuosas 38 según la técnica
anterior. La unidad de tratamiento de tramas defectuosas lleva a
cabo la sustitución y el silenciamiento de las tramas cuando el
subsistema de radiocomunicaciones indica que se han perdido una o
más tramas de voz o del tipo Descriptor de Silencio (SID). Por
ejemplo, si se pierden tramas SID, la unidad de tratamiento de
tramas defectuosas notifica este hecho al decodificador de voz y el
decodificador de voz típicamente sustituye una trama SID defectuosa
por la última trama válida. Esta trama se repite y se atenúa de
forma gradual exactamente como en el caso de una trama de voz
repetida, para proporcionar continuidad en el componente de ruido
de la señal. Alternativamente, en lugar de una repetición directa
se usa una extrapolación de una trama anterior.
La finalidad de la sustitución de las tramas es
ocultar el efecto de las tramas perdidas. La finalidad de la
atenuación de la salida cuando se pierden varias tramas es indicar
al usuario el posible corte del enlace (canal) de
radiocomunicaciones y evitar la generación de sonidos posiblemente
molestos, los cuales se pueden generar a partir del procedimiento
de sustitución de tramas. No obstante, la sustitución y la
atenuación del ruido de fondo habitualmente poco informativo en las
tramas perdidas afecta a la calidad percibida de la voz con ruido o
al puro ruido de fondo. Incluso a niveles bastante bajos del ruido
de fondo, una atenuación rápida del mismo en las tramas perdidas da
origen a la impresión de una reducción notable de la fluidez de la
señal transmitida. Esta impresión se acentúa si el volumen del
ruido de fondo es mayor.
La señal producida por el decodificador de voz,
ya sea voz decodificada, ruido de confort o tramas repetidas y
atenuadas, es transformada del formato digital al analógico por
medio de un conversor
digital-a-analógico 40 y a
continuación se reproduce a través de un altavoz o auricular 42, por
ejemplo, para que sea escuchada por un oyente.
Según uno de los aspectos de la invención, se
proporciona un supresor de ruido para suprimir ruido en una señal
que contiene ruido de fondo, comprendiendo el supresor de ruido un
estimador para realizar estimaciones de un espectro de ruido de
fondo en el cual se usa una indicación de por lo menos uno de entre
una unidad de transmisión discontinua y un detector de errores de
canal para controlar la estimación del espectro del ruido de
fondo.
Preferentemente, la indicación la proporciona un
decodificador de voz en un camino de enlace ascendente en la
red.
Preferentemente, el supresor de ruido suprime el
ruido en una señal proporcionada por el decodificador de voz.
Preferentemente, la indicación surge en un
decodificador de canal y es tratada por el decodificador de voz.
Preferentemente, la indicación es tratada por una unidad de
tratamiento de tramas defectuosas en el decodificador de voz.
Preferentemente, el supresor de ruido
proporciona su señal con ruido suprimido a un codificador de
voz.
Preferentemente, el supresor de ruido usa una
bandera o una indicación la cual indica que las tramas individuales
que se usan para transmitir la señal a través del canal son
erróneas.
Preferentemente, la actualización del espectro
del ruido de fondo estimado se suspende durante periodos en los
cuales el detector de errores de canal detecta errores de canal en
la señal. De esta manera, en la producción de la estimación del
ruido no se usan las partes de la señal que contienen errores de
canal o partes de la señal que están siendo generadas para
enmascarar o mitigar los errores de canal.
Preferentemente, el supresor de ruido comprende
un detector de actividad vocal para controlar la estimación del
espectro de ruido de fondo. Preferentemente, el espectro del ruido
de fondo estimado se actualiza cuando el detector de actividad
vocal indica que no hay voz. Preferentemente, el estado del detector
de actividad vocal y/o su memoria de decisiones anteriores de
presencia/no presencia de voz se congela/congelan cuando el
detector de errores de canal detecta errores de canal.
Preferentemente, un generador de ruido de
confort genera ruido de confort durante periodos de tiempo en los
cuales no se está transmitiendo la señal. Preferentemente, la
actualización del espectro del ruido de fondo estimado se suspende
durante periodos en los cuales la unidad de transmisión discontinua
está indicando que no se está transmitiendo la señal. De esta
manera, el ruido de confort no se usa en la producción de la
estimación del ruido.
La expresión "ruido de confort" significa
un ruido generado para representar ruido de fondo sin que sea el
ruido de fondo que se produce realmente en el momento en el que se
está generando. Por ejemplo, el ruido de confort puede ser una
estimación de ruido realizada a partir del análisis del ruido de
fondo antes de generar el ruido de confort, puede ser un ruido
aleatorio o seudoaleatorio o puede ser una combinación de una
estimación de ruido a partir del análisis del ruido de fondo y de
ruido aleatorio o seudoaleatorio.
\newpage
En una de las formas de realización de la
invención en la cual el supresor de ruido se proporciona en un
terminal móvil, el mismo puede estar ubicado de manera que
proporcione voz con ruido suprimido a un codificador y reciba voz
con ruido suprimido de un decodificador. Evidentemente, el
codificador y el decodificador pueden comprender un códec.
Preferentemente, el supresor de ruido se
encuentra en un camino inalámbrico. El mismo puede estar en un
camino inalámbrico de enlace descendente desde una red de
comunicaciones a un terminal de comunicaciones.
Según otro de los aspectos de la invención se
proporciona un método de supresión de ruido para suprimir ruido en
una señal que contiene ruido de fondo, que comprende las siguientes
etapas:
se realiza una estimación de un espectro de
ruido de fondo;
se usa el espectro de ruido de fondo para
suprimir ruido en la señal;
se recibe una indicación para indicar el
funcionamiento de por lo menos uno de entre una unidad de
transmisión discontinua y un detector de errores de canal; y
se usa la indicación para controlar la
estimación del espectro del ruido de fondo.
Según otro de los aspectos de la invención se
proporciona un terminal móvil que comprende un supresor de ruido
para suprimir ruido en una señal que contiene ruido de fondo,
comprendiendo el supresor de ruido un estimador para realizar una
estimación de un espectro de ruido de fondo, en el cual se usa una
indicación de por lo menos uno de entre una unidad de transmisión
discontinua y un detector de errores de canal para controlar la
estimación del espectro del ruido de fondo.
Preferentemente el terminal móvil comprende el
detector de errores de canal. El detector de errores de canal puede
proporcionar una indicación de que las tramas individuales que se
usan para transmitir la señal a través de un canal son
erróneas.
Preferentemente, la indicación la proporciona un
decodificador de voz en un camino de enlace descendente.
Preferentemente, el detector destinado a detectar errores de canal
está en el decodificador de voz. Preferentemente, la indicación
surge en un decodificador de canal y es tratada por el decodificador
de voz. Preferentemente, la indicación es tratada por una unidad de
tratamiento de tramas defectuosas en el decodificador de voz.
Preferentemente, el supresor de ruido del
terminal móvil comprende un detector de actividad vocal para
controlar la estimación del espectro del ruido de fondo.
Preferentemente, el detector de actividad vocal forma parte de un
codificador de voz.
Preferentemente, el terminal móvil comprende la
unidad de transmisión discontinua.
Según otro de los aspectos de la solicitud, se
proporciona un terminal móvil que comprende un camino de enlace
descendente que tiene un receptor para recibir señales inalámbricas
y unos medios para dar salida a la señal en un formato entendible
por un usuario y un supresor de ruido para suprimir ruido en señales
recibidas, en el cual el supresor de ruido se proporciona en el
camino de enlace descendente.
Cuando se aplica a un camino de comunicaciones
en un sistema de comunicaciones, la expresión enlace descendente
hace referencia al camino que va desde la red a un terminal móvil.
Evidentemente, las señales se pueden transmitir a un terminal de
comunicaciones fijo, tal como un teléfono fijo, en lugar de a un
terminal móvil.
Según otro de los aspectos de la invención, se
proporciona un sistema de comunicaciones móviles que comprende una
red de comunicaciones móviles y una pluralidad de terminales de
comunicaciones móviles, en el cual la red tiene un supresor de
ruido para suprimir ruido en una señal que contiene ruido de fondo,
comprendiendo el supresor de ruido un estimador para realizar una
estimación de un espectro de ruido de fondo, en el cual se usa una
indicación de por lo menos uno de entre una unidad de transmisión
discontinua y un detector de errores de canal para controlar la
estimación del espectro del ruido de fondo.
Preferentemente, la señal la produce un
micrófono. La puede producir un micrófono de un teléfono.
Preferentemente, el sistema de comunicaciones
móviles comprende la unidad de transmisión discontinua.
Preferentemente, el supresor de ruido está
ubicado en la salida de un decodificador en la red para suprimir
ruido en voz decodificada. Alternativamente, el supresor de ruido
proporciona voz con ruido suprimido a un codificador de la red.
Según otro de los aspectos de la solicitud, se
proporciona un sistema de comunicaciones móviles que comprende una
red de comunicaciones móviles y una pluralidad de terminales de
comunicaciones móviles, en el cual se proporciona un supresor de
ruido en la red para suprimir ruido en señales proporcionadas por al
menos uno de los terminales móviles.
Según otro de los aspectos de la solicitud, se
proporciona un dispositivo sustituidor de tramas para sustituir
tramas en una señal con vistas a limitar las perturbaciones
provocadas por errores de canal en la señal, comprendiendo el
dispositivo sustituidor de tramas una memoria para almacenar una
parte de la señal recibida anteriormente, marcada como exenta de
errores, un generador de ruido para generar una señal de ruido y un
generador de tramas para atenuar progresivamente la parte de la
señal recibida anteriormente y para combinar la parte de la señal
recibida anteriormente, atenuada, y la señal de ruido con vistas a
producir una señal combinada, proporcionando el generador de tramas
a la señal combinada una aportación creciente de la señal de ruido
con respecto a la parte de la señal recibida anteriormente a medida
que pasa el tiempo.
La señal de ruido puede ser una señal aleatoria
o seudoaleatoria. Puede ser una combinación de una señal aleatoria
o seudoaleatoria y una estimación de ruido.
Preferentemente, la parte de la señal recibida
anteriormente se repite y se atenúa progresivamente en cada
repetición. La misma puede ser una trama que haya sido recibida. La
señal de ruido puede ser un conjunto de tramas sintetizadas que
hayan sido generadas previamente. Las tramas sintetizadas de la
señal de ruido se pueden añadir de una en una a cada trama atenuada
progresivamente de la parte de la señal recibida anteriormente.
Preferentemente, la aportación de la señal de ruido se incrementa en
el mismo grado en el que se reduce la parte de la señal recibida
anteriormente de manera que el nivel de la señal combinada es
aproximadamente el mismo que el de la parte de la señal recibida
anteriormente.
Se atenúa por lo menos una de entre la señal de
ruido y la parte de la señal recibida anteriormente para indicar un
corte del canal. Preferentemente se atenúan ambas señales. La
atenuación de la señal de ruido puede comenzar una vez que se ha
atenuado la parte de la señal recibida anteriormente hasta tal grado
que ya no realice ninguna aportación a la señal combinada.
El dispositivo sustituidor de tramas puede
formar parte de un manejador de tramas defectuosas el cual forme
parte de un decodificador de voz. El generador de ruido puede estar
en un supresor de ruido. El supresor de ruido puede obtener
información del decodificador de voz y puede ajustar la
amplificación que aplica al ruido que ha generado basándose en la
información que recibe y en su propia medición de cuánta atenuación
han experimentado las tramas repetidas/interpoladas desde la última
vez en la que la indicación de trama defectuosa estaba
desactivada.
El dispositivo sustituidor puede sustituir
tramas que contengan errores, tramas perdidas o ambos tipos de
trama. Los errores de canal pueden haber sido provocados por la
transmisión de la señal a través de una interfaz aérea.
Según otro de los aspectos de la solicitud, se
proporciona un método para sustituir tramas en una señal con vistas
a limitar las perturbaciones provocadas por errores de canal,
comprendiendo el método las siguientes etapas:
se almacena una parte de la señal recibida
anteriormente, marcada como exenta de errores;
se atenúa progresivamente la parte de la señal
recibida anteriormente;
se genera una señal de ruido;
se combina la parte de la señal recibida
anteriormente, atenuada, y la señal de ruido para producir una señal
combinada;
se proporciona a la señal combinada una
aportación creciente de la señal de ruido con respecto a la parte
de la señal recibida anteriormente a medida que pasa el tiempo.
Según otro de los aspectos de la solicitud se
proporciona un terminal móvil que comprende un dispositivo
sustituidor de tramas para sustituir tramas en una señal con vistas
a limitar las perturbaciones provocadas por los errores de canal en
la señal, comprendiendo el dispositivo sustituidor de tramas una
memoria para almacenar una parte de la señal recibida
anteriormente, marcada como exenta de errores, un generador de ruido
para generar una señal de ruido y un generador de tramas para
atenuar progresivamente la parte de la señal recibida anteriormente
y para combinar la parte de la señal recibida anteriormente,
atenuada, y la señal de ruido con vistas a producir una señal
combinada, proporcionando el generador de tramas a la señal
combinada una aportación creciente de la señal de ruido con
respecto a la parte de la señal recibida anteriormente a medida que
pasa el tiempo.
Según otro de los aspectos de la solicitud se
proporciona un sistema de comunicaciones que comprende una red de
comunicaciones que tiene un dispositivo sustituidor de tramas para
sustituir tramas en una señal con vistas a limitar las
perturbaciones provocadas por errores de canal y una pluralidad de
terminales de comunicaciones, comprendiendo el dispositivo
sustituidor de tramas una memoria para almacenar una parte de la
señal recibida anteriormente, marcada como exenta de errores, un
generador de ruido para generar una señal de ruido y un generador
de tramas para atenuar progresivamente la parte de la señal recibida
anteriormente y para combinar la parte de la señal recibida
anteriormente, atenuada, y la señal de ruido con vistas a producir
una señal combinada, proporcionando el generador de tramas a la
señal combinada una aportación creciente de la señal de ruido con
respecto a la parte de la señal recibida anteriormente a medida que
pasa el tiempo.
Según otro de los aspectos de la solicitud, se
proporciona un detector para detectar discontinuidades en una señal
que comprende una secuencia de tramas y que contiene ruido de fondo,
en el cual se mide la amplitud de la señal para detectar una caída
repentina de la amplitud y cuando se detecta una caída de amplitud,
se determina su brusquedad y si la brusquedad es suficientemente
acusada se proporciona una indicación de discontinuidad para
controlar la estimación del ruido de fondo.
Según otro de los aspectos de la solicitud, se
proporciona un supresor de ruido que comprende un estimador para
realizar una estimación del ruido de fondo en una señal que
comprende una secuencia de tramas y que contiene ruido de fondo, y
un detector para detectar discontinuidades en la señal, en el cual
se mide la amplitud de la señal para detectar una caída repentina
de la amplitud y cuando se detecta una caída de amplitud se
determina su brusquedad y si la brusquedad es suficientemente
acusada se proporciona una indicación de discontinuidad para
controlar la estimación del ruido de fondo.
La invención está destinada a detectar huecos
artificiales en la señal los cuales pueden haber sido producidos
deliberadamente aunque no son detectables fácilmente debido a que no
existe ninguna discontinuidad en la secuencia de tramas.
Preferentemente, la indicación de discontinuidad
se usa para controlar la velocidad con la cual se actualiza una
estimación del ruido de fondo. Preferentemente, la velocidad se
reduce cuando se detecta una caída de amplitud.
Preferentemente, la reducción de la velocidad
con la cual se actualiza la estimación del ruido de fondo está
destinada a proteger la estimación del ruido de fondo de manera que
no sea actualizada por un ruido que no sea el que se produce
simultáneamente sino que pueda basarse en ruido producido en
instantes de tiempo anteriores. Preferentemente, la estimación del
ruido de fondo se genera en un supresor de ruido. Aunque el detector
puede formar parte del supresor de ruido, el mismo puede ser una
unidad independiente la cual simplemente proporcione y acepte una
entrada hacia y desde el supresor de ruido. La disminución de la
amplitud puede ser debida a una o más tramas perdidas, o a un
proceso de atenuación y repetición usado para enmascarar dichas
trama o tramas perdidas o puede ser debida a una reducción del
ruido real que se está produciendo simultáneamente y que está
contenido en la señal. Alternativamente, el detector detecta una
discontinuidad provocada por el silenciamiento del micrófono. La
reducción de la velocidad de actualización de la estimación del
ruido da como resultado que la parte de la señal con la que se está
tratando en ese momento específico influya menos en la estimación
del ruido. De esta manera, la estimación del ruido sigue basándose
en el ruido de fondo real si la señal todavía contiene este último
aunque su influencia se reduce para hacer frente a la posibilidad
de que la señal ya no contenga ruido de fondo real en ese momento
sino que por el contrario se esté usando alguna otra señal, por
ejemplo, una trama repetida y atenuada.
Según otro de los aspectos de la solicitud, se
proporciona un método de detección de discontinuidades en una señal
que comprende una secuencia de tramas y que contiene ruido de fondo,
que comprende:
se mide la amplitud de la señal para detectar
una caída repentina de amplitud;
se detecta cuándo cae la amplitud;
se determina la brusquedad de la caída; y
si la brusquedad es suficientemente acusada, se
proporciona una indicación de discontinuidad para controlar la
estimación del ruido de fondo.
Según otro de los aspectos de la solicitud se
proporciona un terminal móvil que comprende un supresor de ruido en
el cual el supresor de ruido comprende un estimador para realizar
una estimación del ruido de fondo en una señal que comprende una
secuencia de tramas y un detector para detectar discontinuidades en
la señal, midiéndose la amplitud de la señal para detectar una
caída repentina de la amplitud y cuando se detecta una caída de
amplitud se determina su brusquedad y si la brusquedad es
suficientemente acusada se proporciona una indicación de
discontinuidad para controlar la estimación del ruido de fondo.
Según otro de los aspectos de la solicitud, se
proporciona un sistema de comunicaciones que comprende una red de
comunicaciones que tiene un supresor de ruido y una pluralidad de
terminales de comunicaciones, comprendiendo el sistema de
comunicaciones un estimador para realizar una estimación del ruido
de fondo en una señal que comprende una secuencia de tramas y un
detector para detectar discontinuidades en la señal, en el cual se
mide la amplitud de la señal para detectar una caída repentina de la
amplitud y cuando se detecta una caída de la amplitud se determina
su brusquedad, y si la brusquedad es suficientemente acusada se
proporciona una indicación de discontinuidad para controlar la
estimación del ruido de fondo.
Según otro de los aspectos de la solicitud, se
proporciona una fase de supresión de ruido para actuar sobre una
señal, comprendiendo la fase de supresión de ruido un primer bloque
de ventanaje para ponderar la señal por medio de una primera
función de ventana, un módulo de transformación para transformar la
señal del dominio en el tiempo al dominio en la frecuencia, un
módulo de transformación para transformar la señal del dominio en
la frecuencia al dominio en el tiempo, y un segundo bloque de
ventanaje para ponderar la señal por medio de una segunda función
de ventana.
Según otro de los aspectos de la solicitud, se
proporciona un método de ventanaje de dos fases que comprende las
siguientes etapas:
se pondera una señal en el dominio del tiempo
por medio de una primera función de ventana para producir una
trama;
se transforma la trama al dominio de la
frecuencia;
se transforma la trama de vuelta al dominio del
tiempo; y
se pondera la trama por medio de una segunda
función de ventana para suprimir errores en la adaptación entre
tramas adyacentes.
Preferentemente, el método comprende la etapa de
ponderación por parte de las ventanas después de una etapa de
codificación de la voz. Alternativamente, la ponderación se puede
producir antes que una etapa de codificación de la voz.
Preferentemente, las funciones de ventana tienen
una forma trapezoidal con una pendiente anterior y una pendiente
posterior. Preferentemente, la primera función de ventana tiene una
pendiente anterior con un gradiente que es más plano que el
correspondiente a la pendiente anterior de la segunda función de
ventana. Preferentemente, la primera función de ventana tiene una
pendiente posterior con un gradiente que es más plano que el
correspondiente a la pendiente posterior de la segunda función de
ventana. El disponer de una pendiente relativamente plana en la
primera función de ventana proporciona una buena transformación de
frecuencias. El disponer de una pendiente relativamente inclinada
en la segunda función de ventana proporciona una buena supresión de
desadaptación entre tramas adyacentes en el dominio del tiempo.
Según otro de los aspectos de la solicitud, se
proporciona un terminal móvil que comprende una fase de supresión
de ruido para actuar sobre una señal, comprendiendo la fase de
supresión de ruido un primer bloque de ventanaje para ponderar la
señal por medio de una primera función de ventana, un módulo de
transformación para transformar la señal del dominio en el tiempo
al dominio en frecuencia, un módulo transformador para transformar
la señal del dominio en frecuencia al dominio en el tiempo y un
segundo bloque de ventanaje para ponderar la señal por medio de una
segunda función de ventana.
Según otro de los aspectos de la solicitud, se
proporciona un sistema de comunicaciones que comprende una red de
comunicaciones que dispone de una fase de supresión de ruido para
actuar sobre una señal y de una pluralidad de terminales de
comunicaciones, comprendiendo la fase de supresión de ruido un
primer bloque de ventanaje para ponderar la señal por medio de una
primera función de ventana, un módulo de transformación para
transformar la señal del dominio en el tiempo al dominio en
frecuencia, un supresor de ruido para suprimir ruido en la señal,
un módulo de transformación para transformar la señal del dominio en
frecuencia al dominio en el tiempo y un segundo bloque de ventanaje
para ponderar la señal por medio de una segunda función de
ventana.
La señal puede ser voz con ruido aunque puede
que la voz no esté presente todo el tiempo.
A continuación se describirá una forma de
realización de la invención únicamente a título de ejemplo, haciendo
referencia a los dibujos adjuntos en los cuales:
la Figura 1 muestra un terminal móvil según la
técnica anterior;
la Figura 2 muestra un terminal móvil según la
invención,
la Figura 3 muestra un detalle de un supresor de
ruido en el terminal móvil de la Figura 2;
la Figura 4 muestra representaciones de
funciones de ventana según la invención;
la Figura 5 muestra la invención en forma de un
diagrama de flujo; y
la Figura 6 muestra un sistema de comunicaciones
que incorpora la invención.
La Figura 1 se ha descrito anteriormente en
relación con planteamientos convencionales de supresión de ruido
conocidos a partir de la técnica anterior.
La Figura 2 muestra un terminal móvil 10 similar
al correspondiente a la Figura 1, modificado según la presente
invención. Se han aplicado referencias numéricas correspondientes a
las partes pertinentes. El terminal 10 de la Figura 2 comprende
adicionalmente un supresor de ruido 44 ubicado en la vía de
recepción (enlace descendente/decodificación de la voz) 14. Debería
observarse que el supresor de ruido 44 está conectado al manejador
DTX 36 y a la unidad de tratamiento de tramas defectuosas 38. El
supresor de ruido 44 recibe señales del manejador DTX 36 y de la
unidad de tratamiento de tramas defectuosas 38 las cuales influyen
en su funcionamiento, tal como se describirá posteriormente.
Debería observarse que aunque las unidades supresoras de ruido en
las vías de codificación de la voz y de decodificación de la voz se
muestran como bloques independientes (20 y 44) en la Figura 2, las
mismas se pueden implementar en una única unidad. Dicha unidad única
puede disponer de una funcionalidad de supresión de ruido tanto en
la codificación de la voz como en la decodificación de la voz.
El supresor de ruido 44 está ubicado en la vía
de recepción (decodificación de la voz) 14 a la salida de un
decodificador de voz (en este caso el decodificador de voz 34). Por
esta razón, el mismo debe procesar una señal de voz con ruido,
resultante de una o más fases de codificación y de decodificación de
la voz, por ejemplo, en conexiones de
móvil-a-móvil a través de uno o más
sistemas de telefonía móvil.
Debería entenderse que aunque el supresor de
ruido 44 se muestra en un terminal móvil, el mismo también puede
estar ubicado en una red. Tal como se explicará posteriormente, su
funcionamiento resulta particularmente relevante cuando el mismo se
usa conjuntamente con un codificador de voz, un decodificador de voz
o un códec.
La Figura 3 muestra detalles de un supresor de
ruido 300. El supresor de ruido 300 se puede aplicar para suprimir
ruido en señales tanto recibidas como transmitidas por un terminal
móvil y por lo tanto puede constituir la base del supresor de ruido
20 ó el supresor de ruido 44 del terminal móvil 10 de la Figura 2.
El supresor de ruido 300 se presenta en términos de bloques
funcionales. Se incluyen también bloques funcionales para llevar a
cabo operaciones de procesado de tramas y de Transformada Rápida de
Fourier (FFT).
En la vía del enlace ascendente (codificación de
la voz), el conversor A/D 18 produce un flujo continuo de datos
digitales el cual se proporciona al supresor de ruido 20 que lo
convierte en una trama de entrada. A continuación se describirá la
creación de esta trama de entrada haciendo referencia a la Figura 3.
En un bloque de formación de secuencias de entrada 316 se extrae de
un flujo continuo de entrada 314 una secuencia de entrada 312 de
tramas de 80 muestras. La secuencia de entrada 312 se añade a una
secuencia de 18 muestras almacenada en una memoria intermedia de
segmentos de superposición de entrada 318. Esta secuencia de 18
muestras se almacenó en la memoria intermedia 318 durante la
creación de una secuencia de entrada anterior. Una vez que el
contenido de la memoria 318 se ha usado para la nueva trama de
entrada, el mismo se sustituye por las últimas 18 muestras de la
secuencia de entrada nueva, las cuales se usarán en la creación de
la siguiente trama. Por lo tanto, la salida del bloque de formación
de secuencias de entrada 316 es una secuencia que contiene un total
de 98 muestras.
En el bloque 320, a la secuencia de entrada 312
obtenida a partir del bloque de formación de secuencias de entrada
316 se le aplica una función de ventana trapezoidal de 98 muestras.
La función de ventana se ilustra en la Figura 4 y la misma se
indica mediante la etiqueta W1. La Figura 4 muestra además otra
función de ventana W3 la cual se describe posteriormente. La
función de ventana W1 dispone de unas rampas anterior y posterior
de 12 muestras de longitud. Después del ventanaje, a la secuencia de
entrada resultante se le añaden 30 ceros, para producir una trama
de entrada de 128 muestras. Debería observarse que la operación de
relleno con ceros, recién descrita, produce una trama de entrada
con un número de muestras que es una potencia de 2, en este caso
2^{7}. Esta opción garantiza que las subsiguientes operaciones de
Transformada Rápida de Fourier (FFT) y Transformada Rápida de
Fourier Inversa (IFFT) se puedan realizar eficazmente.
En el bloque 322, se realiza una FFT de 128
puntos sobre la trama de entrada para extraer el espectro de
frecuencia de la trama. El espectro de amplitud se calcula a partir
de la FFT compleja usando una división de frecuencia predeterminada
que es más amplia que la resolución de frecuencia ofrecida por la
longitud de la FFT. A las bandas de frecuencia determinadas por
esta división se les hace referencia como "bandas de frecuencia de
cálculo". La estimación del espectro de amplitud contiene
información sobre la distribución de frecuencia de la señal, la
cual se usa a continuación en el supresor de ruido 44 para calcular
coeficientes de ganancia de la supresión de ruido para las bandas
de frecuencia de cálculo (bloque 328). En parte, la finalidad de
este cálculo es establecer y mantener una estimación del espectro
de frecuencia correspondiente al ruido de fondo.
En el bloque 330, la FFT compleja, proporcionada
como una salida del bloque 322, se multiplica dentro de las bandas
de frecuencia de cálculo por los coeficientes de ganancia
correspondientes del bloque 328. Finalmente, el espectro complejo
modificado se transforma de vuelta al dominio del tiempo del bloque
330 usando una FFT inversa en el bloque 366.
Se sabe que los requisitos de carga
computacional y de memoria, así como el retardo algorítmico de las
operaciones de ventanaje, se pueden reducir usando una función de
ventana trapezoidal sencilla con un segmento de superposición
corto. No obstante, el uso de una función de ventana tan sencilla
puede dar origen a efectos no deseables en la señal de salida. El
más destacado de dichos efectos es una crepitación introducida
debido a una desadaptación (por ejemplo, en el nivel de la señal y
el contenido espectral) en los límites cortos de las tramas
superpuestos. Esta perturbación se puede producir en condiciones de
una SNR de entrada moderada, en las que la función de ganancia
manifiesta con frecuencia unas ganancias de atenuación altamente
variables entre las bandas de frecuencia de cálculo. Cuando el
supresor de ruido actúa como una fase de preprocesado antes que un
codificador de voz, por ejemplo, en la vía de enlace ascendente
(codificación de voz), esta crepitación queda enmascarada
típicamente por el propio proceso de
codificación-decodificación de la voz.
No obstante, en el caso del terminal móvil 10 de
la Figura 2, no existe ninguna fase de codificación de la voz
adicional ubicada después del supresor de ruido 44 según el sentido
de avance. Por lo tanto, las perturbaciones no deseables
introducidas por el uso de funciones de ventana trapezoidal con
segmentos de superposición cortos no quedan ocultadas por un
proceso subsiguiente de codificación y serán audibles en la señal de
salida proporcionada al altavoz/auricular 42. Para superar este
problema, se podría alargar la longitud del segmento de
superposición y se podría suavizar la función de ventana, aunque
esto conduciría a un aumento de la complejidad computacional y
particularmente, del retardo algorítmico.
Por esta razón, según la invención, se forma una
trama de salida en el dominio del tiempo a través de un
procedimiento mejorado de superposición-adición
para suprimir perturbaciones en las zonas limítrofes de las tramas.
Esta opción se representa por medio de las funciones de ventana W1
y W3. Se aplica una disposición de ventanaje de "dos fases" en
la cual se usa una combinación de por lo menos dos funciones de
ventana trapezoidal que presentan unas características ligeramente
diferentes, introduciéndose en una FFT una función de ventana para
el ventanaje de tramas y obteniéndose a la salida de una IFFT otra
función de ventana para el ventanaje de tramas. En el método según
la invención, a la señal de entrada en el bloque 320, antes de
llevar a cabo la FFT en el bloque 322, se le aplica una primera
función de ventana trapezoidal W1, que presenta unas rampas
relativamente largas y planas. Cuando la señal de entrada se
transforma de vuelta al dominio del tiempo mediante la IFFT en el
bloque 366, se modifica la salida de la IFFT en el bloque 368 por
medio de una segunda función de ventana trapezoidal W3, que
presenta unas rampas más cortas y más inclinadas que la función de
ventana usada antes que la FFT. La longitud del segmento de
superposición-adición se determina por medio de la
longitud de la rampa de la segunda ventana estrechada gradualmente.
Las funciones de ventana W1 y W3 se pueden ver, y comparar, en la
Figura 4.
La W3 tiene una longitud de solamente 86
muestras, con unas funciones de rampa anterior y posterior de una
longitud de seis muestras. El comienzo de esta segunda ventana se
sincroniza con la sexta muestra de la secuencia (vector) de salida
IFFT y las funciones de rampa son tales que producen una rampa
lineal de una longitud de seis muestras a ambos extremos de la
ventana. La salida de esta operación es un vector de 86 muestras,
cuyas primeras seis muestras se suman muestra a muestra en el
bloque 372 con las muestras de una memoria intermedia de segmentos
de superposición de salida 370 del mismo tamaño, almacenadas durante
el procesado de la trama anterior. A continuación, las últimas seis
muestras del vector de salida de la ventana se almacenan en la
memoria intermedia de segmentos de superposición de salida 370 para
ser usadas en la siguiente trama. En el bloque 374, se extrae
finalmente la trama de salida en forma de las primeras 80 muestras
de la salida de la ventana, incluyendo la suma anterior de las seis
primeras muestras con la anterior memoria intermedia de segmentos
de superposición de salida.
Debería observarse también que el proceso de
ventanaje trapezoidal de dos fases antes descrito se puede usar
conjuntamente con un supresor de ruido usado como una fase de
preprocesado después de la decodificación de la voz, o se puede
aplicar en un supresor de ruido usado como preprocesador antes de la
codificación de la voz. Específicamente, la mejora de calidad
ofrecida por la ventana de dos fases en la entrada de un codificador
de voz puede hacer que mejore la calidad alcanzada en el proceso de
codificación de la voz.
Como los vectores de entrada para las FFT en la
práctica comprenden números reales, la carga computacional se puede
reducir mediante el empaquetamiento de dos tramas de entrada en una
FFT compleja, usando un método de recombinación trigonométrica tal
como el descrito en Numerical Recipes in C; The Art of Scientific
Computing (págs. 414 a 415), 1988. En este planteamiento, las
muestras de una primera trama con ventanaje aplicado y con relleno
de ceros se asignan a los componentes reales de la secuencia de
entrada para la FFT. A los componentes imaginarios de la secuencia
de entrada se les asigna una segunda trama. A continuación se
calcula una FFT compleja de 128 puntos. Los espectros complejos de
las dos tramas se pueden separar mediante una recombinación
trigonométrica. Después del procesado de reducción de ruido de los
dos espectros complejos, los mismos se combinan sumando al primer
espectro el segundo multiplicado por la unidad imaginaria. El
espectro complejo resultante se alimenta a una IFFT y las tramas de
salida en el dominio del tiempo se pueden hallar en las partes real
e imaginaria de la salida IFFT.
En el bloque 326 se calcula un espectro de
amplitud aproximado a partir de la FFT compleja. En cada
compartimento (bin) FFT, el valor complejo se eleva al
cuadrado para producir un valor de energía correspondiente a ese
compartimento. Los valores de los compartimentos FFT al cuadrado
dentro de cada una de las bandas de frecuencia de cálculo se suman
y a continuación se aplica una raíz cuadrada para generar una
amplitud promedio aproximada para cada banda de frecuencias de
cálculo. Debería apreciarse que los valores espectrales de la
potencia se pueden usar de una forma totalmente análoga.
La estimación del espectro del ruido de fondo se
basa en la representación aproximada del espectro de amplitud
obtenida en forma de una salida del bloque 326. Posteriormente se
describen procedimientos para actualizar la estimación del espectro
del ruido de fondo.
En la forma de realización preferida de la
invención, el intervalo de frecuencias de 0 Hz a 4 kHz se divide en
12 bandas de frecuencia de cálculo que presentan anchuras
diferentes. La división se basa en información estadística sobre
las posiciones promedio de las frecuencias de los formantes en la
voz. El proceso de promediar valores espectrales sobre las bandas
de frecuencias de cálculo reduce eficazmente el número de
compartimentos espectrales a procesar y por lo tanto reduce la
carga computacional del algoritmo y consigue que se ahorre memoria
de acceso aleatorio (RAM) tanto estática como dinámica. Por otra
parte, el promediado en el dominio de la frecuencia tiene un efecto
de suavización sobre la voz mejorada. No obstante, estas ventajas se
alcanzan a costa de la resolución frecuencial y por lo tanto puede
que sea necesaria una solución de compromiso. En particular, si el
ruido de fondo ocupa la misma zona de frecuencias que la señal de
voz, la resolución frecuencial debería ser suficientemente alta
como para permitir la suficiente separación entre la voz y el
ruido.
A continuación se describirá el funcionamiento
del proceso de supresión de ruido que se produce en el supresor de
ruido 44. La supresión de ruido se ocupa de mejorar una señal de voz
que ha sido deteriorada por un ruido de fondo adicional. Según la
presente invención, la supresión de ruido se realiza calculando una
estimación del espectro de la señal de voz con ruido, realizando
una estimación del espectro del ruido de fondo, e intentando
producir una mejora del espectro de la voz con ruido con un nivel de
ruido menor que la voz con ruido original.
En el supresor de ruido 44, se usa un filtrado
de Wiener modificado. En el bloque 328 se calculan coeficientes de
ganancia para cada banda de frecuencias de cálculo sobre la base de
una estimación de la SNR a priori calculada en el bloque 344
usando las estimaciones del espectro de la amplitud para la trama de
voz entrante (actual) y el ruido de fondo. A continuación en el
bloque 351 se realiza una interpolación sobre la base de estos
coeficientes de ganancia para proporcionar a cada compartimento FFT
un coeficiente de ganancia según la banda de frecuencias de cálculo
en la cual reside dicho compartimento. Los coeficientes de ganancia
para los compartimentos FFT por debajo de la frecuencia inferior de
la banda de frecuencias de cálculo más baja se determinan basándose
en el coeficiente de ganancia de la banda de frecuencias de cálculo
más baja. De forma similar, los coeficientes de ganancia aplicados
a los compartimentos FFT por encima del límite superior de la banda
de frecuencias de cálculo más alta se determinan usando el
coeficiente de ganancia correspondiente a la banda de frecuencia de
cálculo más alta. Los componentes espectrales complejos se
multiplican por los coeficientes de ganancia correspondientes en el
bloque 330. En el supresor de ruido 44, los valores de los
coeficientes de ganancia están en el intervalo [low_gain,1],
en el que 0<low_gain<1, ya que esta opción simplifica
el control del procesado en relación con los desbordamientos.
La fórmula de cálculo de la ganancia para la
estimación de la amplitud de Wiener para cualquier compartimento de
frecuencias \theta se puede escribir como:
1G_{w}(\theta)
= \frac{\xi(\theta)}{1 + \xi(\theta)},
\hskip1cm\theta = 0,1,...,64
en la que \xi(\theta) es
la SNR a priori. Según la técnica anterior, se puede realizar
una estimación de la SNR a priori según un método de
estimación enfocado a las
decisiones,
tal como el presentado en IEEE Transactions
on Acoustics, Speech and Signal Processing,
ASSP-32(6), 1984. La Ecuación 1 se modifica
usando un promediado por pasos, en el dominio de la frecuencia, de
los espectros de amplitud en las bandas de las frecuencias de
cálculo, lo cual provoca unas diferencias de un compartimento a
otro dentro de una banda menores que las del estimador de Wiener
original que usa la resolución frecuencial basada en la FFT
completa. En aras de una mayor claridad en la notación, en lo
sucesivo el símbolo s se usa para hacer referencia a una banda de
frecuencias de cálculo y para diferenciarlo de \theta, el símbolo
usado para indicar un compartimento FFT. Además, para calcular un
coeficiente de ganancia dentro de una banda de frecuencias de
cálculo, se usa una modificación del estimador de amplitud de Wiener
básico. Esta opción se puede representar como:
2G(s) =
\frac{\tilde{\xi}(s)}{1 + \tilde{\xi}(s)},
\hskip1cms= 0,1,...,11
La modificación del filtrado de Wiener
introducida en el presente caso implica la forma según la cual se
realiza la estimación de la SNR a priori para cada banda de
frecuencias de cálculo. Esencialmente, no existe ninguna manera de
extraer una SNR a priori auténtica a partir de una señal de
un solo canal ya que las propias señales de ruido y la voz
originales no son conocidas a priori.
La estimación de la SNR a priori tiene
lugar en el bloque 344. Según la técnica anterior, se puede realizar
una estimación de la SNR a priori usando el planteamiento
enfocado a las decisiones mencionado anteriormente, el cual se
puede expresar matemáticamente de la manera siguiente:
3\hat{\xi}(s,n) = \alpha
G^{2}(s,n - 1) \gamma (s,n - 1) + (1 + \alpha) P [\gamma(s,n)
-
1]
En la ecuación 3, \gamma(s,n) es la SNR
a posteriori del número de trama n, calculada en el bloque
342 como la relación de los componentes del espectro de potencia de
la trama actual y la estimación del espectro de potencia del ruido
de fondo para la banda de frecuencias de cálculo s. Esta relación de
potencias se calcula elevando al cuadrado la relación de los
componentes correspondientes de las estimaciones respectivas del
espectro de amplitud. G(s,n -1) es el coeficiente de
ganancia para la banda de frecuencias de cálculo s determinada para
la trama anterior, P(\cdot) es la función de rectificación
y \alpha es el denominado "factor de olvido"
(0<\alpha<1). Según el planteamiento enfocado a las
decisiones, \alpha puede adoptar uno de entre dos valores
dependiendo de la decisión del VAD para la trama actual.
\newpage
Se puede realizar una estimación precisa de la
SNR a priori en unas condiciones de una SNR elevada y, de
forma más general, en bandas de frecuencia en las que la voz bien
está claramente presente o bien está totalmente ausente. No
obstante, como la fórmula de estimación de Wiener, está presentada
en la Ecuación 1, tiene una derivada la cual aumenta notablemente
hacia los valores bajos de la SNR y la estimación proporcionada por
la ecuación 3 no es del todo precisa en los valores bajos de la SNR,
la aplicación directa de la fórmula de estimación de Wiener tal
como se presenta en la Ecuación 1 provoca efectos molestos en las
bandas de frecuencias de la SNR baja cuando hay presencia de voz.
Además de la distorsión de la voz, el ruido residual puede llegar a
ser inestable a niveles molestos durante la pronunciación de
palabras con niveles de ruido moderados.
En la presente invención, en lugar de la
relación convencional voz/ruido introducida anteriormente se realiza
una estimación de una relación a priori de voz con
ruido/ruido. En la siguiente descripción, esta relación voz con
ruido/ruido se indicará usando la abreviatura NSNR. Usando una
estimación de una NSNR a priori, en lugar de una estimación
directa de la SNR a priori, se puede mejorar
significativamente la calidad subjetiva (percibida) de una señal de
voz con ruido suprimido.
De este modo, según la invención, la estimación
de la SNR a priori se sustituye por la estimación de una
relación voz con ruido/ruido, NSNR, lo cual conduce a la
sustitución de la fórmula de la ecuación 3 por la siguiente:
4\hat{\xi}(s,n) = \alpha
G^{2}(s,n - 1) \gamma (s,n - 1) + (1 - \alpha) P
[\gamma(s,n)]
Se reivindica que se puede realizar una
estimación del NSNR más precisa que la relación voz/ruido SNR a
priori. Según la ecuación 4, los valores de la SNR a
posteriori obtenidos para la trama anterior, multiplicados por
los coeficientes de ganancia respectivos correspondientes a la trama
anterior, se usan en el cálculo de la relación voz con ruido/ruido
a priori correspondiente a la trama actual. Los valores de la
SNR a posteriori para cada una de las tramas se almacenan en
el bloque de memoria SNR 345 después del cálculo de los coeficientes
de ganancia correspondientes a la trama. De este modo los valores
de la SNR a posteriori correspondientes a la trama anterior
se pueden recuperar del bloque de memoria SNR 345 y se pueden usar
en el cálculo de una NSNR a priori de la trama actual.
Según la invención, la estimación de la NSNR
proporcionada por la ecuación 4 está acotada también desde por
debajo, tal como se expresa en la ecuación 5. Esta opción fija
eficazmente un límite superior sobre la atenuación máxima de ruido
que puede obtenerse:
5\hat{\xi}'(s)
=
max(\xi\_min,\hat{\xi}(s))
Seleccionando un valor umbral, \xi_min, que dé
como resultado una atenuación máxima de aproximadamente 10 dB y
sustituyendo \hat{\xi}'(s) en la fórmula de ganancia de Wiener, el
ruido de fondo residual (es decir, el componente de ruido que queda
después de la supresión de ruido) se suaviza y se reduce
significativamente la distorsión de la voz.
El factor de olvido \alpha de la ecuación 4 se
trata también de forma diferente a la de los métodos de supresión
de ruido de la técnica anterior. En lugar de seleccionar el factor
de olvido \alpha basándose en la decisión del VAD, el mismo se
determina sobre la base de las condiciones reinantes de la SNR. Esta
característica viene motivada por el hecho de que en unas
condiciones de SNR baja, la suavización en el dominio del tiempo de
la estimación de la NSNR a priori puede reducir el efecto
negativo de los errores de estimación sobre la calidad de la voz
con ruido suprimido. Para establecer la relación entre el factor de
olvido y las condiciones reinantes de la SNR, \alpha se calcula
basándose en una indicación de la SNR a posteriori invertida,
snr_ap_I_{n}, presentada a continuación en la siguiente ecuación
6:
6\alpha =
\alpha
(snr\_ap\_i_{n})
En la estimación de la SNR a priori se
introduce también una corrección NSNR. Esta corrección reduce la
tendencia a subestimar la NSNR a priori de la ecuación 4 en
unas condiciones de una SNR baja, un efecto que provoca una
amortiguación y una distorsión de la voz con ruido suprimido
(mejorada). Para realizar la corrección SNR, en la entrada del
supresor de ruido se monitorizan las condiciones de la SNR de larga
duración. Con este fin, en el bloque 348 se establecen y se
mantienen unas estimaciones de larga duración del nivel de voz con
ruido y del nivel del ruido filtrando las potencias totales de las
tramas de entrada y la potencia total de la estimación del espectro
del ruido de fondo en el dominio del tiempo.
Para obtener una estimación del nivel de voz, se
promedia el espectro de potencia de la trama de voz actual sobre
las bandas de frecuencias de cálculo. Las potencias de las tramas se
filtran con un factor de olvido variable y un retardo de trama
variable para producir la estimación del nivel de voz con ruido. La
estimación del nivel de ruido se obtiene promediando la estimación
del espectro del ruido de fondo sobre las bandas de frecuencias de
cálculo y realizando un filtrado con factor de olvido fijo a través
del tiempo.
El supresor de ruido 44 comprende además un
Detector de Actividad Vocal (VAD) 336, el cual se usa para controlar
el procedimiento de actualización de la estimación del espectro de
ruido de fondo, tal como se describirá a continuación. La detección
de la actividad Vocal se usa en el supresor de ruido 44
principalmente para controlar la estimación del espectro del ruido
de fondo. No obstante, la decisión del VAD 336 para cada trama se
usa también para controlar algunas otras funciones tales como la
estimación de los niveles de la voz con ruido y del ruido en
relación con la estimación de la NSNR a priori (antes
descrita) y con el procedimiento de búsqueda de mínimos en el
cálculo de la ganancia (que se describirá posteriormente). Además,
el algoritmo VAD se puede usar para producir una indicación de
detección de voz para aplicaciones externas. El funcionamiento de la
indicación VAD se puede optimizar para funciones externas, tales
como funciones manos libres de control de eco o de transmisión
discontinua (DTX), realizando pequeñas modificaciones, tales como
cambios de valores de parámetros para incrementar o decrementar la
sensibilidad del VAD.
Para actualizar la estimación del nivel de la
voz con ruido únicamente en tramas que contienen voz, se permite o
se evita la actualización dependiendo de si el VAD 336 detecta
actividad vocal en la trama actual y en las tramas próximas. Se
introduce un retardo para posibilitar la monitorización de las
decisiones del VAD 336 tanto antes como después de la trama a
partir de la cual se obtiene la potencia de actualización. Tomando
esta precaución, se puede reducir el impacto sobre la estimación del
nivel de voz de potencias reducidas en tramas que representan
transiciones entre voz con ruido y ruido puro y se puede compensar
la poca fiabilidad inherente de las decisiones VAD 336 en estas
tramas. En la práctica, el retardo se fija a 2 tramas excepto para
las tramas con una potencia de trama muy elevada, en cuyo caso se
selecciona el mínimo de entre los correspondientes a las últimas
tres tramas para las cuales el VAD 336 detecta voz.
Para favorecer la actualización con potencias de
trama que representen el intervalo medio de la potencia de la voz
con ruido, el factor de olvido adopta valores que permiten
actualizaciones más rápidas en los casos en los que la diferencia
entre la potencia de la trama actual y la estimación del nivel de
voz antiguo es pequeña en términos absolutos.
La estimación del nivel de ruido se obtiene
filtrando trama a trama la potencia total en la estimación del
espectro del ruido de fondo. En este caso, no se fijan condiciones
adicionales basadas en el VAD y el factor de olvido se mantiene
constante ya que el procedimiento de actualización para la
estimación del espectro de ruido ya es altamente fiable.
Finalmente, se define un indicador de nivel de
ruido relativo el cual se usa como factor de corrección SNR. El
mismo se define como una relación a escala y acotada de la
estimación del nivel de ruido con respecto a la estimación del
nivel de la voz con ruido, tal como se muestra en la siguiente
ecuación 7:
7\eta =
min\left(max\_\eta, \kappa
\frac{\hat{N}}{\hat{S}}\right)
en la que \hat{N} es la
estimación del nivel del ruido y \hat{S} es la estimación del
nivel de la voz con ruido; \kappa es un factor de escala, y
max_\eta es el límite superior del resultado. \hat{N} y
\hat{S} se calculan en el bloque 348. La acotación se puede
implementar simplemente en forma de una saturación en aritmética de
punto fijo, y la transformación a escala se puede sustituir por un
desplazamiento hacia la izquierda fijando \kappa = 2. Como según
una de las formas de realización preferidas de la invención, las
estimaciones del nivel de la voz con ruido y del ruido se almacenan
en el dominio de la amplitud, en primer lugar se calcula la relación
de la ecuación 7 para las amplitudes y a continuación la misma se
eleva al cuadrado para producir una relación en el dominio de la
potencia.
La estimación del nivel de ruido \hat{N},
antes descrita, se fija a cero en el inicio del procedimiento. La
estimación del nivel de la voz con ruido \hat{S} se inicia a un
valor correspondiente a una potencia de voz moderadamente baja.
Como valor mínimo para la estimación del nivel de la voz con ruido
en el procesado subsiguiente se usa otro valor algo más
reducido.
La corrección SNR se aplica a la estimación de
la NSNR a priori según la ecuación 8:
8\hat{\xi}(s)
= (1 +
\eta)\hat{\xi}'(s)
Esto produce una estimación de la NSNR a
priori modificada con vistas a su sustitución en la ecuación
2.
La detección de la actividad vocal en una trama
de voz determinada se basa en la estimación de la SNR a
posteriori calculada en el bloque 342 del supresor de ruido.
Básicamente, la decisión del VAD se toma comparando una medida de
la distancia espectral D_{SNR} con un umbral adaptativo vth. La
distancia espectral D_{SNR} se calcula como el promedio de los
componentes del vector SNR a posteriori:
9D_{SNR} =
\sum\limits^{s\_h}_{s=s\_1} \nu_{s}
\gamma(s),
en la que s_l y s_h son los índices
de los componentes correspondientes a las bandas de frecuencias de
cálculo más baja y más alta incluidas en la decisión del VAD y
\nu_{s} es un factor de ponderación aplicado al componente del
vector SNR en la banda s. En la forma de realización de la invención
presentada en este caso, se consideran todos los componentes con el
mismo peso, es decir, s_l = 0, s_h = 11, y \nu_{s} =
1/12.
Si D_{SNR} supera el umbral vth, se interpreta
que la trama contiene voz y la función VAD indica "1". En
cualquier otro caso, la trama se clasifica como ruido y el VAD
indica "0". Estas decisiones binarias del VAD se almacenan en
un registro de desplazamiento que abarca 16 tramas (una variable
estática de 16 bits) para posibilitar referencias a decisiones
antiguas del VAD.
El valor umbral del VAD vth es normalmente
constante. No obstante, en condiciones de una SNR muy buena el
valor umbral se incrementa para evitar que pequeñas fluctuaciones en
la potencia de la señal se interpreten como voz. Unos valores
reducidos del nivel de ruido relativo \eta (antes descrito)
indican unas buenas condiciones de SNR, ya que este factor es una
relación a escala de la potencia de ruido estimada con respecto a la
potencia de la voz con ruido estimada. De este modo, cuando \eta
es reducida, el umbral del VAD vth se incrementa linealmente con
respecto al negativo de \eta. Se define también un umbral en
relación con \eta de tal manera que cuando \eta es mayor que el
umbral, vth se mantiene constante.
Si la potencia de la señal de entrada es muy
baja, pequeños acontecimientos no estables en la señal se podrían
interpretar erróneamente como voz, incluso después de la adaptación
del umbral VAD según se ha descrito anteriormente. Para eliminar
dichas detecciones falsas de voz, la potencia total de la trama de
la señal de entrada se compara con un umbral. Si la potencia de la
trama permanece por debajo del umbral, la decisión del VAD se fuerza
al valor "0", para indicar que no se ha producido voz. No
obstante, esta modificación se lleva a cabo únicamente cuando la
decisión del VAD se aplica en la estimación de la NSNR a
priori para determinar los pesos correspondientes a la
estimación antigua y la SNR a posteriori de la trama nueva en
la ecuación 4. Con el fin de actualizar la estimación del espectro
del ruido de fondo y las estimaciones del nivel de la voz con ruido
y del ruido, así como en una búsqueda de ganancia mínima (la cual
se describirá posteriormente), se usan las decisiones del VAD sin
modificar del registro de desplazamiento de 16 bits.
Para garantizar una buena respuesta a los
transitorios en la voz, los coeficientes de ganancia de atenuación
del ruido calculados en el bloque 328 usando la ecuación 2 deberían
reaccionar rápidamente a la actividad Vocal. Desafortunadamente, un
aumento de la sensibilidad de los coeficientes de ganancia de
atenuación a los transitorios de la voz hace que aumente también su
sensibilidad al ruido no estable. Por otra parte, como la
estimación del espectro de amplitud del ruido de fondo se lleva a
cabo por medio de un filtrado recursivo, la estimación no se puede
adaptar rápidamente a componentes de ruido que varíen con rapidez y
por lo tanto no puede procurar su atenuación.
También es probable que se produzca una
variación no deseable en el ruido residual cuando la resolución
espectral del vector de coeficientes de ganancia aumente, debido a
que al mismo tiempo se reduce el promediado de los componentes del
espectro de potencia, es decir se dispone de menos compartimentos
FFT por banda de frecuencias de cálculo. No obstante, el
ensanchamiento de las bandas de frecuencias de cálculo reduce la
capacidad del algoritmo de localizar aquellas frecuencias en las
cuales se puede concentrar el ruido. Esta situación puede provocar
una fluctuación no deseable en la salida del supresor de ruido,
especialmente a bajas frecuencias en las que se concentra
típicamente el ruido. La proporción elevada de contenido de bajas
frecuencias en la voz puede provocar además la reducción de la
atenuación del ruido en el mismo intervalo de frecuencias bajas en
tramas que contengan voz, tendiendo a producirse una modulación
molesta del ruido residual síncrono con el ritmo de la voz.
En la presente solicitud, se hace frente a los
problemas antes expuestos de forma general usando una "búsqueda
de ganancia mínima". Esta operación se lleva a cabo en el bloque
350. Se revisan los coeficientes de ganancia de atenuación
G(s) determinados para la trama actual y una o dos tramas
anteriores (los cuales están almacenados en el bloque de memoria de
ganancia 352) y se identifican los valores mínimos de los
coeficientes de ganancia de atenuación para cada banda de
frecuencias de cálculo s. Cuando se decide cuántos vectores de
coeficientes de ganancia de atenuación anteriores revisar se tiene
en cuenta la decisión del VAD referente a la trama actual, de tal
manera que si en la trama actual no se detecta voz, se consideran
dos conjuntos anteriores de coeficientes de ganancia de atenuación
y si se detecta voz en la trama actual únicamente se revisa un
conjunto anterior. En la siguiente ecuación 10 se resumen las
propiedades de la búsqueda de ganancia mínima:
en la que G_{A}(s,n)
indica el coeficiente de ganancia de atenuación para la banda de
frecuencias de cálculo s en la trama n después de la búsqueda de la
ganancia mínima y V_{ind} representa la salida del detector de
actividad
Vocal.
La búsqueda de ganancia mínima tiende a suavizar
y estabilizar el comportamiento del algoritmo de supresión de
ruido. Como consecuencia, el ruido de fondo residual suena más
uniforme y se atenúan eficazmente los componentes del ruido de
fondo no estables que varían rápidamente.
\newpage
Tal como ya se ha explicado, cuando se aplica la
supresión de ruido en el dominio de la frecuencia, es necesario
obtener una estimación del espectro del ruido de fondo. A
continuación se describirá más detalladamente este proceso de
estimación. En la presente solicitud, se obtiene una estimación del
espectro del ruido de fondo promediando espectros de frecuencia de
tramas de señales de entrada durante periodos en los que no se
produce actividad Vocal. Esta operación se lleva a cabo en el
bloque 332, el cual calcula una estimación temporal del espectro
del ruido de fondo y en el bloque 334 el cual calcula una estimación
final del espectro del ruido de fondo. Según este planteamiento, la
actualización de la estimación del espectro del ruido de fondo se
realiza en referencia a la salida del VAD 336. Si el VAD 336 indica
que no hay voz presente, el espectro de amplitud de la trama actual
se suma, con un peso predefinido, a la estimación del espectro del
ruido de fondo anterior, multiplicado por un factor de olvido.
Estas operaciones se describen en la siguiente ecuación 11:
11N_{n}(s) =
\lambda N_{n-1} (s) + (1 - \lambda) S (s)
\hskip1cms = 0,...11
en la que
N_{n-1}(s) es el componente de la
estimación del espectro del ruido de fondo en la banda de
frecuencias de cálculo s a partir de la trama anterior (trama
n-1), S(s) es la banda de frecuencias de
cálculo s-ésima del espectro de potencia de la trama actual,
N_{n}(s) es el componente correspondiente de la estimación
del espectro del ruido de fondo en la trama actual, y \lambda es
el factor de
olvido.
Los factores de olvido están dispuestos de
manera que pueden afrontar más eficazmente el uso de espectros de
amplitud en la actualización de las estadísticas de ruido
proporcionadas por la ecuación 11. En el dominio de la amplitud se
usan constantes de tiempo relativamente rápidas con factores de
olvido más pequeños para la actualización en sentido ascendente, y
constantes de tiempo más lentas para la actualización en sentido
descendente. Las constantes de tiempo se varían también para
adaptarse a los cambios grandes y pequeños. Se produce una
actualización rápida en la dirección del sentido ascendente cuando
un componente espectral se debe actualizar con un valor mucho mayor
que la estimación anterior, y se produce una actualización lenta en
la dirección del sentido descendente cuando el componente espectral
nuevo es bastante menor que la estimación antigua. Por otro lado,
para actualizar valores de componentes espectrales en las
proximidades de una estimación antigua se usan constantes de tiempo
algo más lentas.
Como el VAD 336 proporciona solamente una salida
de dos estados, la identificación del comienzo de la pronunciación
de unas palabras implica una solución de compromiso. En el comienzo
de la pronunciación de unas palabras, puede que el VAD 336 continúe
marcando ruido. De este modo, puede que la primera trama de voz se
clasifique erróneamente como ruido y consecuentemente la estimación
del espectro del ruido de fondo se podría actualizar con un
espectro que contenga voz. Puede producirse una situación similar al
final de la pronunciación de unas palabras.
Tal como se describe de forma más detallada
posteriormente, este problema se afronta proyectando una ventana de
decisiones del VAD 336 antes y después de una trama anterior a la
trama que se está usando para actualizar la estimación del espectro
del ruido de fondo en el bloque 334. A continuación, el espectro de
fondo se puede actualizar con un retardo (actualización retardada)
por medio de un espectro de amplitud almacenado correspondiente a
una trama antigua.
En la presente solicitud, la actualización de la
estimación del espectro del ruido de fondo se lleva a cabo en dos
fases. En primer lugar, en el bloque 332 se crea una estimación
temporal del espectro de potencia actualizando la estimación del
espectro del ruido de fondo con el espectro de amplitud de la trama
actual. Para que este proceso de actualización tenga lugar, debería
cumplirse una de entre las siguientes tres condiciones:
- 1.
- las decisiones del VAD 336 correspondientes a la trama actual y las tres tramas anteriores son "0" (indicando solamente ruido);
- 2.
- se determina que la señal es estable para un número requerido de tramas; o
- 3.
- el espectro de potencia de la trama actual es menor que la estimación del espectro del ruido de fondo para alguna banda de frecuencias.
En segundo lugar, la estimación temporal
resultante del espectro de potencia (del bloque 332) se usa como la
estimación real del espectro del ruido de fondo para la siguiente
trama, a no ser que la decisión del VAD correspondiente a esa trama
sea un "1" y las tres tramas anteriores (es decir,
inmediatamente precedentes) produjeran una decisión del VAD de
"0". En este caso, correspondiente, por ejemplo, al comienzo de
la pronunciación de unas palabras, la estimación anterior del
espectro del ruido de fondo se copia del bloque 334 a la estimación
del espectro de potencia temporal del bloque 332 para fijar en
condiciones iniciales la estimación.
También pueden surgir dificultades debido a que
el proceso de estimación del espectro del ruido de fondo está
controlado por la decisión del VAD 336, aunque la propia decisión
del VAD 336 se basa en la estimación del espectro del ruido de
fondo del bloque 334. Si el nivel del ruido de fondo aumenta
repentinamente, las tramas de entrada se pueden interpretar como
voz y no se realizará ninguna actualización de la estimación del
espectro del ruido de fondo. Esto provoca que la estimación del
espectro del ruido de fondo pierda la pista del ruido real.
\newpage
Para hacer frente a este problema, se usa un
método de recuperación. En el bloque 338 se evalúa la estabilidad
de la señal de entrada durante periodos que el VAD 336 clasifica
como voz. Se mantiene un contador al que se hace referencia como
"contador de detecciones falsas de voz" para mantener un
registro de decisiones sucesivas de "1" del VAD 336.
Inicialmente, el contador se fija a 50, correspondiente a 0,5 s (50
tramas). Si se considera que la señal de entrada es suficientemente
estable y la trama actual se interpreta como voz, el contador de
detecciones falsas de voz se decrementa. Si se indica estabilidad y
el VAD da como salida un "0" para la trama actual, pero
algunas de las tramas anteriores produjeron un "1", el contador
no se modifica. Si se determina que la señal de entrada es no
estable, el contador se vuelve a fijar a un valor de inicialización.
Cada vez que el contador alcanza el valor cero, se actualiza la
estimación del espectro del ruido de fondo en el bloque 334.
Finalmente, si se obtienen 12 decisiones consecutivas de "0"
del VAS, también se fija en condiciones iniciales el contador de
detecciones falsas de voz. Esta acción se basa en la consideración
de que dicha sucesión de decisiones de "0" del VAD indica
implícitamente que la estimación del espectro del ruido de fondo en
el bloque 334 ha alcanzado nuevamente el nivel de ruido
predo-
minante.
minante.
Para decidir si la trama actual representa una
señal estable, en el bloque 340 se mantiene un promedio de corta
duración del espectro de amplitud de la señal de entrada por medio
de un promediado recursivo. Los componentes del espectro de
amplitud de la trama actual se dividen por los componentes
correspondientes del espectro promediado en el tiempo, y si
cualquiera de los cocientes resulta menor que uno, el mismo se
sustituye por el inverso. Si la suma de los cocientes resultantes
supera un valor umbral predefinido, se determina que la señal es no
estable; en cualquier otro caso se indica estabilidad. Los
componentes del promedio de corta duración del espectro de amplitud
(mantenido mediante un promediado recursivo en el bloque 340) se
inicializan a cero ya que los mismos varían solo ligeramente de una
forma más lenta que el espectro de amplitud de las tramas de
entrada.
Además del planteamiento básico de actualización
basado en el VAD y del método de recuperación antes descrito, los
componentes de la estimación del espectro del ruido de fondo en cada
trama se actualizan si el componente correspondiente del espectro
de amplitud de la trama actual es menor que la estimación del
espectro del ruido de fondo actual. Esto permite obtener una rápida
recuperación con respecto a (1) valores elevados de inicialización
de los componentes del espectro del ruido de fondo (que se
describirán posteriormente) (2) una actualización forzada errónea
que se pudiera producir durante una trama de voz real. Esta forma
adicional de actualización, a la que se hace referencia como
"actualización a la baja" se basa en el hecho de que el ruido
solo no puede presentar nunca una amplitud mayor que el ruido más
la voz. La actualización a la baja se lleva a cabo actualizando la
estimación temporal del espectro del ruido de fondo en el bloque
332.
En el inicio, los componentes de la estimación
del espectro del ruido de fondo en el bloque 334 se inicializan a
valores que representan una amplitud elevada. De esta manera, se
puede tratar un amplio intervalo de posibles señales iniciales de
entrada sin encontrarse con el problema de que la estimación del
espectro del ruido de fondo pierda la pista del ruido. Se aplica la
misma inicialización a la estimación temporal del espectro del
ruido de fondo en el bloque 332 usado para la actualización
retardada.
El funcionamiento del supresor de ruido 44 se
controla de manera que suprime eficazmente ruido en la dirección
del enlace descendente. En particular, su funcionamiento se controla
de manera que las estimaciones de potencia de la señal y los
niveles de amplitud, particularmente la estimación del espectro del
ruido de fondo en el bloque 334, no se modifiquen erróneamente.
Podría producirse una modificación errónea de este tipo como
consecuencia de errores del canal de transmisión. Los errores de
los canales pueden provocar que se dañen o pierdan una serie de
tramas, por ejemplo unas cuantas decenas de tramas o un número
mayor. Tal como se ha mencionado anteriormente, si se detectan
errores de canal los mismos se ocultan, típicamente repitiendo (o
realizando una extrapolación de) la última trama de voz buena
mientras se aplica una atenuación rápidamente creciente.
Durante el tiempo en el que no se reciben
tramas, no se recibe ni voz ni ruido y por lo tanto la estimación
temporal del espectro del ruido de fondo en el bloque 332 y la
estimación del espectro del ruido de fondo en el bloque 334 tienden
a disminuir. Consecuentemente, el supresor de ruido 44 puede perder
la pista del espectro de ruido verdadero. Si no se hiciera nada
para compensar este efecto, cuando el canal quedara libre y se
recibieran tramas de nuevo correctamente, la supresión de ruido
tendría lugar sobre la base de una estimación reducida del espectro
del ruido de fondo. Por lo tanto, la supresión de ruido
proporcionada por el supresor de ruido no resultaría tan eficaz y
el nivel de ruido escuchado por un usuario del terminal móvil se
incrementaría repentinamente. Además, después de dicha
interrupción, es necesario que los bloques 332 y 334 reconstruyan
sus estimaciones del espectro del ruido de fondo basándose en el
espectro del ruido verdadero, para restablecer su precisión. Hasta
que no se obtenga otra vez una estimación razonable, la estimación
del ruido resultará incorrecta y la misma será escuchada por el
usuario como un cambio repentino del tipo de ruido. Dichos cambios
del tipo de ruido y del nivel de ruido resultan molestos para los
usuarios.
Adicionalmente, las tramas de voz erróneas, que
el decodificador de voz 34 no consigue detectar como erróneas,
provocan que el mismo de salida a tramas de voz falsas que presentan
unos niveles elevados de energía distribuida aleatoriamente. El
supresor de ruido 44 no puede atenuar la señal en dichas tramas.
El uso de una transmisión discontinua (DTX) o
algún tipo similar de función, tal como una conmutación accionada
por voz (VOX), provoca problemas similares. Tal como se ha descrito
anteriormente, durante una DTX se genera un espectro de ruido de
confort y en lugar de ruido verdadero se reproduce ruido de confort.
Si el espectro del ruido de confort es diferente al espectro del
ruido verdadero, por ejemplo, si el espectro del ruido verdadero
varía mientras se reproduce el ruido de confort, en ese caso la
estimación del espectro del ruido de fondo en el bloque 334 perderá
la pista del espectro del ruido verdadero. Consecuentemente, cuando
se interrumpe la DTX y se reciben otra vez tramas que contienen
voz, el supresor de ruido 44 comienza a suprimir el ruido en la
señal recibida usando la estimación del espectro de ruido de fondo
previamente válida. Esta situación dará origen a una atenuación no
óptima.
Para hacer frente a los problemas provocados por
los efectos de las tramas de voz defectuosas y la DTX, los mismos
también se tienen en cuenta en la actualización de la estimación de
larga duración del nivel de voz con ruido, así como en el VAD 336 y
en las funciones de búsqueda de ganancia mínima.
Según uno de los ejemplos de la solicitud, se
proporciona un teléfono móvil que dispone de supresores de ruido
ubicados en los canales tanto de enlace ascendente como de enlace
descendente. En un sistema de telecomunicaciones en el cual se
comunican dos de dichos teléfonos móviles, una señal puede pasar a
través de una serie de supresores de ruido en una disposición en
cascada. Además, si también se usan supresores de ruido en la red
celular, por ejemplo en conmutadores, transcodificadores u otros
equipos de la red, todavía habrá presentes más supresores de ruido
en la disposición en cascada. Dichos supresores de ruido se
optimizan en general de forma independiente para proporcionar una
atenuación máxima de ruido sin provocar ninguna distorsión molesta
en la voz. No obstante, el uso de dos o más de dichas operaciones
de supresión de ruido en cascada podría dar como resultado la
distorsión de la
voz.
voz.
En una de las formas de realización de la
invención, el supresor de ruido 44 está provisto de un detector
para analizar la entrada con vistas a tener en cuenta el uso de un
supresor de ruido en algún momento anterior en el camino de la voz.
El detector monitoriza las condiciones de la SNR en la entrada del
supresor de ruido 44 en el camino de enlace descendente
(decodificación de la voz) y controla el cálculo de la ganancia de
atenuación según la SNR estimada. En unas condiciones de una SNR
buena, el nivel de supresión de ruido se reduce o se elimina
completamente, ya que estas condiciones podrían ser el resultado de
una fase anterior de reducción del ruido. En cualquier caso, en
unas condiciones de una buena SNR en general la supresión de ruido
resulta menos
necesaria.
necesaria.
Se establece una variable de control para el
control de ganancia dependiente de la señal realizando una
estimación de la SNR a posteriori de la banda completa
efectiva correspondiente a la señal de entrada del supresor de
ruido como la relación de estimaciones de larga duración de la
potencia de la voz con ruido y la potencia del ruido de fondo. En
el bloque 348 se calcula la SNR a posteriori de la banda
completa. La expresión "banda completa efectiva" hace
referencia al intervalo de frecuencias que abarcan las bandas de
frecuencias de cálculo en el cálculo de la ganancia. Por razones
prácticas, se realiza una estimación del inverso de la SNR a
posteriori en lugar de la SNR real. Este planteamiento se usa
principalmente debido a que se puede considerar siempre que la
potencia de ruido es menor que o igual a la potencia de la voz con
ruido. Esta situación simplifica los cálculos en aritmética de
punto
fijo.
fijo.
La SNR a posteriori, o snr_ap_i, se
calcula como la relación de las estimaciones del nivel de ruido y de
la voz con ruido \hat{N} y \hat{S} tal como se ha descrito
anteriormente. En este caso, la relación del nivel de ruido con
respecto al nivel de voz con ruido no se ha transformado a escala
como en el caso del cálculo del factor de corrección SNR (ecuación
7) sino que se ha pasado un filtro pasabajas sobre las tramas de
voz. La finalidad del filtrado es reducir los efectos de los
cambios repentinos del nivel de voz o del ruido de fondo para
suavizar el control de la atenuación. La estimación de la variable
de control snr_ap_i se expresa de la manera siguiente:
12snr\_ap\_i_{n} = b \cdot
snr\_ap\_i_{n-1} + (1 - b) \cdot
min\left(max\_snr\_ap\_i,
\frac{\hat{N}}{\hat{S}}\right)
en la que n es el número ordinal de
la trama actual, b \varepsilon (0,1), \hat{N} es la estimación
del nivel del ruido, \hat{S} es la estimación del nivel de voz
con ruido, y max_snr_ap_i es el valor de saturación de snr_ap_i en
la aritmética de punto
fijo.
El mecanismo de control para limitar la
atenuación del ruido en condiciones de una buena SNR se ha diseñado
de manera que la atenuación en decibelios (dB) se reduce linealmente
al aumentar la SNR en decibelios. Este método de cálculo pretende
proporcionar una transición suave, imperceptible para un oyente. Por
otra parte, el control queda restringido a un intervalo limitado de
relaciones SNR de entrada.
La reducción de la atenuación se realiza
mediante una subestimación del término correspondiente al espectro
del ruido de fondo en la fórmula de ganancia de Wiener. En lugar de
la ecuación 2 se usa una forma modificada de la fórmula para el
cálculo de la ganancia:
13G(s)
= \frac{\tilde{\xi}(s)}{u(snr\_ap\_i) +
\tilde{\xi}(s)}
\newpage
La dependencia del término unitario
u(snr_ap_i) con respecto a la variable de control snr_ap_i se
puede hallar expresando la relación lineal en escalas de dB, a una
atenuación máxima. A continuación se puede obtener la siguiente
relación:
14u(snr\_ap\_i) =
\xi\_min\left(\frac{1}{10^{B/20}}snr\_ap\_i^{A/2} -
1\right)
en la que \xi_min es el límite
inferior de la SNR a priori, en términos de banda, obtenida a
partir del bloque 344, y las constantes A y B se determinan por
medio de los extremos inferior y superior del intervalo deseado de
la atenuación nominal máxima del ruido (descartando el efecto de la
corrección SNR) y de los extremos inferior y superior del intervalo
usado de la variable de control
snr_ap_i.
Para poder trabajar con dos mecanismos de
control de ganancia que compiten entre si, y para evitar la
atenuación no óptima que se produce en ciertas condiciones, los
parámetros de control correspondientes al control de ganancia, y
particularmente la variable de control y los intervalos de
atenuación máxima, se seleccionan cuidadosamente de manera que la
supresión de ruido más alta se obtiene en el intervalo en el que se
esperan las mayores ventajas. Esto depende de que la estimación de
las condiciones de la SNR se realice de forma suficientemente
adecuada.
Aunque podrían esperarse problemas al combinar
las funciones de ganancia, una en el enlace ascendente y otra en el
enlace descendente, el primer supresor de ruido (enlace ascendente)
en general mejora las condiciones de la SNR en la entrada del
segundo supresor de ruido (enlace descendente). Por esta razón, esta
situación se tiene en cuenta en la consideración de la instalación
en tándem, de manera que se obtiene una función de ganancia
combinada uniforme y esencialmente monótona.
El supresor de ruido 44 usa información
referente a la aparición de tramas defectuosas y a las acciones
pertinentes realizadas por el decodificador de voz cuando actúa
como fase de postprocesado después de la decodificación de la
voz.
La bandera de indicación de trama defectuosa
obtenida a partir del decodificador de canal 32 se asigna a una
entrada adecuada en un registro de banderas de control en el
supresor de ruido en el que cada bandera reserva una posición de un
bit. Cuando el decodificador de canal indica que se produce una
trama defectuosa, se alza la bandera de trama defectuosa, por
ejemplo, la misma se fija a 1. En cualquier otro caso, se fija a
cero.
Inmediatamente después de que se haya detectado
una ráfaga de tramas de voz perdidas, se hace que ciertas funciones
controladas normalmente por el VAD 336 sean independientes con
respecto a las decisiones del VAD 336. Adicionalmente, se congelan
el estado del VAD 336 y el registro de desplazamiento que contiene
decisiones antiguas del VAD mientras la bandera de indicación de
trama defectuosa indica tramas defectuosas. Esta situación permite
que aquellas funciones que dependen del VAD 336 usen las últimas
decisiones "buenas" del VAD después de ráfagas de tramas
defectuosas las cuales habitualmente tienen una duración corta. En
la mayoría de los casos, esta opción minimiza las perturbaciones en
el rendimiento del supresor de ruido, provocadas por las tramas
defectuosas.
Para mantener el nivel y las formas espectrales
correctas de la estimación del espectro del ruido de fondo, el
mismo no se actualiza mientras la bandera de indicación de trama
defectuosa está activada. En particular, no se actualiza la
estimación temporal del espectro del ruido de fondo. No obstante, la
actualización de la estimación del espectro del ruido de fondo se
retarda sustituyéndola por la estimación temporal del espectro del
ruido de fondo incluso aunque se estén marcando tramas defectuosas
si la decisión actual del VAD 336 es "1" y la misma ha sido
precedida por tres decisiones de "0" del VAD, tal como se ha
descrito anteriormente. Como la estimación temporal del espectro
del ruido de fondo no se actualiza, esto garantiza que en la
estimación del espectro del ruido de fondo se incluye solamente la
última información válida referente al espectro de ruido real.
Para proporcionar una referencia correcta en
relación con la detección de la estabilidad en el bloque 338, el
promedio de corta duración del espectro de potencia de la señal de
entrada no se actualiza cuando se marcan tramas defectuosas. El
contador de detecciones falsas de voz tampoco se actualiza mientras
la bandera de indicación de trama defectuosa está activada para
conservar su estado durante la sucesión de tramas defectuosas, lo
cual típicamente dura poco tiempo.
Para obtener una reducción correcta del ruido de
fondo en tramas repetidas y atenuadas, se debe tener en cuenta la
atenuación proporcionada por el manejador de tramas defectuosas
sobre la señal decodificada. Con este fin, la estimación del
espectro del ruido de fondo (la cual se usa para generar la SNR a
posteriori dividiendo el espectro de potencia de las tramas
actuales componente a componente) se multiplica por la ganancia de
atenuación de las tramas repetidas. En el bloque 346 se calcula la
ganancia de atenuación de las tramas repetidas.
Durante las tramas defectuosas se deshabilita la
actualización de la estimación del nivel de la voz con ruido
\hat{S} calculada en el bloque 348. Cuando la bandera de
indicación de trama defectuosa está activada se congelan también
los valores retardados de las potencias de trama correspondientes a
las dos últimas tramas usadas en la estimación del nivel de voz con
ruido. De este modo, al procedimiento de actualización se le
proporcionan las potencias de las tramas correspondientes a las
últimas decisiones actualizadas del VAD.
En contraposición, durante las tramas
defectuosas en el bloque 348 se actualiza continuamente la
estimación del nivel de ruido \hat{N}. Este procedimiento viene
motivado por el hecho de que la estimación del nivel de ruido
\hat{N} se basa en la estimación del espectro del ruido de fondo,
la cual está protegida por las medidas anteriores con respecto a
los efectos de las tramas repetidas y atenuadas. De este modo, se
puede aprovechar ciertamente el tiempo que transcurre durante las
tramas defectuosas para obtener una estimación filtrada por
pasabajas del nivel de ruido que está más próxima a la potencia
promediada de la estimación del espectro del ruido.
Durante las tramas defectuosas se deshabilita la
búsqueda de la ganancia mínima. Si no fuera así, la actualización
de la memoria de ganancia con valores de ganancia reducidos
predispondría la transición, por ejemplo, de las tramas defectuosas
a las tramas de voz buenas, provocando que las primeras tramas de
voz buenas (por ejemplo, una o dos) que vinieran a continuación de
una secuencia de tramas defectuosas se atenuaran demasiado
fuertemente.
En unas condiciones deficientes en relación con
los errores de los canales, puede que el decodificador de canal 32
no pueda recuperar correctamente una trama y que por lo tanto
reenvíe una trama totalmente errónea al decodificador de voz. Como
los errores de canal se producen típicamente en ráfagas, las tramas
defectuosas se producen habitualmente en grupos. Si la unidad de
tratamiento de tramas defectuosas 38 del decodificador de voz 34 no
consigue detectar una trama defectuosa y consecuentemente dicha
trama se decodifica de forma normal, el resultado es típicamente
una secuencia aleatoria con una energía elevada, lo cual produce un
sonido muy molesto. No obstante, dicha trama errónea no provoca
necesariamente problemas en el supresor de ruido 44. Una trama de
este tipo, que contenga típicamente un contenido elevado de energía,
no será incluida en la estimación del ruido de fondo ya que el VAD
336 debería marcar la presencia de voz. Además, la energía elevada
de la trama no influirá significativamente en la estimación del
nivel de la voz con ruido \hat{S}, ya que el factor de olvido se
incrementará (en correspondencia con una constante de tiempo grande)
según las reglas de la estimación del nivel de voz con ruido, en
las que una diferencia grande entre la estimación actual y la
potencia de la trama nueva provocará la selección de un factor de
olvido de un valor elevado. Por otra parte, si no se producen
demasiadas tramas erróneas de este tipo, para actualizar la
estimación del nivel de la voz con ruido \hat{S} se usará
probablemente el mínimo de las últimas tres potencias de trama en
lugar de la trama errónea de alta potencia.
Si la ráfaga de tramas defectuosas de alta
potencia no detectadas es larga (por ejemplo, si su duración es 0,5
s ó mayor), existe el peligro de que se pudiera activar la
actualización forzada de la estimación del espectro del ruido de
fondo. Aunque esta situación requiere una estabilidad de la entrada,
dicha condición se podría cumplir si las tramas erróneas
decodificadas se pareciesen al ruido blanco. No obstante, una ráfaga
errónea tan larga ya podría desembocar en la interrupción de la
llamada, haciendo que el peor de los casos, ya mencionado, en el
que se inicia una actualización forzada resultase bastante
improbable. Por otra parte, incluso si la estimación del espectro
del ruido de fondo se actualizase a un nivel alto según tramas
erróneas, el VAD 336 interpretaría la señal de entrada como ruido
durante algún tiempo. Esta situación, junto con el procedimiento de
actualización a la baja descrito anteriormente, permitiría que la
estimación del espectro de ruido recobrase rápidamente la forma y
el nivel perdidos del espectro de ruido, típicamente en unos pocos
segundos.
Según la solicitud, se toman medidas en el
supresor de ruido para hacer frente a los problemas que pueden
surgir en una conexión de
móvil-a-móvil en la que pueden
prevalecer condiciones deficientes de los canales en uno cualquiera
de los dos caminos de radiocomunicaciones. El supresor de ruido 44
que recibe tramas a través de dicha conexión deficiente de
móvil-a-móvil, es decir, el supresor
de ruido en la conexión de enlace descendente (decodificación de la
voz), no puede obtener ninguna información sobre las condiciones del
canal en la conexión del enlace ascendente (es decir, desde el
móvil transmisor a la red). Por esta razón, el mismo es incapaz de
generar ninguna indicación explícita de trama defectuosa. No
obstante, la unidad de tratamiento de tramas defectuosas 38 en el
decodificador de voz 34 de la conexión de enlace ascendente seguirá
el procedimiento normalizado en el que se repite y atenúa la última
trama buena, tal como lo hará el manejador de tramas defectuosas
del decodificador de voz de enlace descendente 34. Consecuentemente,
el supresor de ruido 44 en la conexión de enlace descendente recibe
ráfagas de tramas altamente atenuadas sin ninguna información
adjunta sobre tramas defectuosas.
Para hacer frente a este problema, el supresor
de ruido de enlace descendente 44 actualiza a la baja lentamente la
estimación temporal del espectro del ruido de fondo, el promedio de
corta duración del espectro de potencia de voz y la estimación del
nivel de voz con ruido si en la señal de entrada se detectan huecos
antinaturales. En el proceso de actualización a la baja aplicado a
la estimación temporal del espectro del ruido de fondo y al
promedio de corta duración del espectro de potencia de la voz se usa
un procedimiento de detección de huecos que comprende tres etapas
de comparación. Las tres etapas son:
- 1.
- Comparación de la potencia de entrada de cada banda de frecuencias de cálculo con un valor umbral pequeño.
- 2.
- Comparación de la potencia de entrada de actualización con el nivel de la estimación actual en cada banda de frecuencias de cálculo.
- 3.
- Comparación de la medida de la estabilidad con el valor umbral de estabilidad calculado en el bloque 338.
Las primeras dos etapas de comparación,
introducidas anteriormente, se realizan para cada banda de
frecuencias de cálculo. La finalidad de la tercera etapa de
comparación es deshabilitar la acción de recuperación en condiciones
de bajo ruido. Si el ruido se encuentra en un nivel bajo desde el
comienzo de una llamada, el promedio de corta duración del espectro
de amplitud de entrada no adopta nunca valores elevados y,
consecuentemente, la medida de la estabilidad permanece a un nivel
bajo. Por otro lado, si el nivel de ruido cae después de haber
estado a un nivel alto, este procedimiento restablecerá la velocidad
de actualización normal después de un periodo de tiempo, ya que el
promedio de corta duración del espectro de amplitud de entrada
alcanza un nivel inferior durante la actualización lenta.
En el caso de la estimación del nivel de voz con
ruido, únicamente se llevan a cabo las primeras dos comparaciones
anteriores y las mismas se realizan sobre las potencias de las
bandas completas efectivas.
Incluso aunque el supresor de ruido 44 detecta
fiablemente tramas perdidas, la estimación del espectro de ruido
tiende a actualizarse fácilmente justo lo suficiente como para
provocar que el VAD 336 interprete incorrectamente el ruido como
voz después del silenciamiento de tramas. Para hacer frente a esta
situación, se manipula el umbral de detección de estabilidad
durante un periodo en el que se detecten tramas silenciadas para
mejorar las posibilidades de que el supresor de ruido 44 detecte la
voz correctamente. El umbral original se restablece en cuanto surja
la siguiente ocasión en la que el contador de detecciones falsas de
voz inicie una actualización forzada del espectro de fondo. Esta
acción parece jugar un papel decisivo, ya que evita eficazmente la
fijación a condiciones iniciales del contador de detecciones falsas
de voz en transiciones hacia y desde tramas silenciadas, en las que
la medida de la estabilidad adopta fácilmente valores elevados.
Este planteamiento para la detección de y la
protección contra tramas silenciadas no detectadas puede identificar
tramas en las cuales la señal casi se ha perdido o la misma se ha
perdido totalmente. Además, estas medidas no provocan efectos
negativos en situaciones en las cuales no hay presentes huecos de
señal.
Tal como se ha mencionado anteriormente, un
manejador DTX funciona conjuntamente con el decodificador de voz.
Como la señal de ruido de confort producida en el receptor no es, en
la práctica, nunca idéntica al componente de ruido original en el
terminal transmisor (extremo distante), el supresor de ruido 44 en
el extremo receptor se controla de manera que no se ve afectado por
un cambio en la naturaleza del ruido de fondo durante periodos en
los cuales la DTX está activa.
En el sistema GSM actual, se proporciona una
bandera explícita en el decodificador de voz indicando si el modo
de funcionamiento DTX está activado. En los códecs de voz GSM, la
decisión de desactivar la transmisión durante pausas de voz se
realiza en el manejador de Transmisión Discontinua (DTX) para la
Transmisión (TX) del códec de voz. Al final de una ráfaga de voz,
se tarda unas pocas tramas consecutivas en general una trama SID
nueva la cual a continuación se usa para transportar parámetros del
ruido de confort que describen las características estimadas del
ruido de fondo para el decodificador. La transmisión de
radiocomunicaciones se corta después de la transmisión de la trama
SID y la bandera de Voz (bandera SP) se fija a cero. En cualquier
otro caso, la bandera SP se fija a 1 para indicar transmisión de
radiocomunicaciones.
Esta bandera de voz es recibida por el
decodificador de voz y se usa también en el supresor de ruido 44
para fijar la bandera DTX, del registro de banderas de control del
supresor de ruido, a 0 ó 1, respectivamente. La decisión de invocar
el modo de funcionamiento destinado a periodos DTX se basa en el
valor de esta bandera. En el modo DTX, se elude el VAD 336 del
supresor de ruido 44 y la decisión del VAD se toma según indique el
manejador DTX del códec de voz. De este modo, cuando la función DTX
está activada, la decisión del VAD se fija a cero, con las
consecuencias que se describen posteriormente.
La capacidad de las funciones DTX del códec de
voz GSM de realizar una estimación del nivel y la forma espectrales
del proceso de ruido de fondo es variable. Adicionalmente, la forma
espectral del ruido de confort es habitualmente más plana que el
espectro del ruido de fondo real. Por esta razón, el supresor de
ruido 44 está configurado de manera que únicamente realiza una
estimación del espectro del ruido de fondo en el bloque 334 durante
tramas en las cuales no se está produciendo una DTX.
Consecuentemente, la estimación del espectro temporal del ruido de
fondo en el bloque 332 se produce únicamente en los momentos en los
que la DTX está desactivada. No obstante, la copia de la estimación
del espectro del ruido de fondo real está habilitada en todas las
tramas para garantizar la inclusión de la última información útil
en la estimación final del espectro del ruido de fondo usada en el
proceso de actualización retardado antes descrito.
La actualización de la estimación del espectro
del ruido de fondo en el bloque 334 no se produce mientras se está
transmitiendo el ruido de confort y por lo tanto la detección de la
estabilidad no se lleva a cabo durante dichas tramas. No obstante,
después de que se haya transmitido un número de tramas de ruido de
confort, probablemente una trama de voz nueva ya no presenta
ninguna correlación con una trama de ruido de confort. Como
consecuencia, el contador de detecciones falsas de voz se fija en
condiciones iniciales. Esta fijación en condiciones iniciales se
realiza después de dieciséis decisiones de pausa de voz del VAD 336
(tal como se ha explicado anteriormente, el VAD 336 está
configurado para detectar pausas de voz mientras se transmite el
ruido de confort).
En las tramas del ruido de confort, a la
ganancia de atenuación del ruido se le asigna el valor mínimo
permisible en todas las bandas de frecuencias de cálculo. Este
valor de ganancia mínimo se determina sustituyendo \hat{\xi}'(s)
por \xi_min en la ecuación 8 y sustituyendo el resultado en la
ecuación 2. Debido a que se usa esta fórmula de ganancia especial,
durante la generación del ruido de confort se puede deshabilitar el
cálculo de la SNR a priori en el bloque 344. El vector de la
"SNR a posteriori mejorada" de la trama anterior (la SNR
a posteriori multiplicada por la ganancia de atenuación
elevada al cuadrado), la cual se usa en el cálculo de la SNR a
priori, calculada para la trama de voz más reciente, se mantiene
hasta la siguiente trama de voz en la que pueda ser usado.
En una de las formas de realización de la
invención, el supresor de ruido 44 se usa para compensar las
variaciones de las características espectrales de la señal de ruido
de confort generada durante tramas DTX, las cuales tienen su origen
en imperfecciones de la estimación del espectro del ruido de fondo
en los codificadores de voz. El supresor de ruido se puede usar
para obtener una estimación relativamente fiable del espectro del
ruido de fondo en el extremo distante (por ejemplo, en un terminal
móvil transmisor). Por esta razón, esta estimación se puede usar,
en el supresor de ruido 44, para modificar el nivel y la forma
espectrales del ruido de confort generado. Esto implica la
predicción del espectro del ruido residual que se obtendría a la
salida del supresor de ruido 44 si el espectro de entrada se
corresponde con la estimación actual del ruido de fondo y a
continuación la modificación del espectro de amplitud de la señal
del ruido de fondo de entrada de manera que se parezca a esta
estimación del ruido residual. Se prefiere usar una solución de
compromiso entre la atenuación constante en todas las bandas de
frecuencias de cálculo, tal como se ha descrito anteriormente, y la
modificación hacia el ruido residual estimado. Este planteamiento
utiliza la información que han adquirido tanto el codificador de
voz como el supresor de ruido 44 en relación con el ruido en el
extremo distante.
Gracias a la naturaleza uniforme del ruido de
confort generado en un decodificador de voz, no existe la necesidad
de usar la función de búsqueda de ganancia mínima del bloque 350
para estabilizar el comportamiento de la ganancia de reducción de
ruido durante las tramas de ruido de confort. Por otra parte, de
esta manera, no se actualiza la memoria correspondiente de los
valores antiguos del vector de ganancia en el bloque 352. De este
modo, los vectores de ganancia almacenados en la memoria
representarán las condiciones en las que la DTX está desactivada y,
por lo tanto, se podrán aplicar de forma más adecuada a la condición
en la que se haya restablecido el modo de funcionamiento normal
(DTX desactivada).
En todos los códecs de voz GSM actuales, se
proporciona una bandera explícita en el decodificador de voz que
indica si el modo de funcionamiento DTX está activado. En el caso de
otros sistemas, tales como el sistema PDC, en los que no existe
dicha bandera explícita, el modo de repetición de tramas
correspondiente se detecta en el supresor de ruido comparando las
tramas de entrada con tramas anteriores y fijando una bandera VOX si
las tramas consecutivas son muy similares.
Tal como se ha mencionado anteriormente, la
sustitución y el silenciamiento de una trama de voz perdida o una
trama SID perdida pueden provocar alguna interrupción en un flujo
armonioso continuo del ruido de fondo sobre
la(s) trama(s) perdida(s) y desembocar en una impresión de una reducción notable de la fluencia en la señal transmitida, impresión que se hace más pronunciada si el volumen del ruido de fondo es elevado. Se hace frente a este problema en primer lugar ajustando la supresión de ruido en las tramas de voz perdidas y en segundo lugar generando un ruido de fondo seudorresidual (PRN) en el algoritmo, el cual a continuación se mezcla con la trama de voz atenuada o trama SID.
la(s) trama(s) perdida(s) y desembocar en una impresión de una reducción notable de la fluencia en la señal transmitida, impresión que se hace más pronunciada si el volumen del ruido de fondo es elevado. Se hace frente a este problema en primer lugar ajustando la supresión de ruido en las tramas de voz perdidas y en segundo lugar generando un ruido de fondo seudorresidual (PRN) en el algoritmo, el cual a continuación se mezcla con la trama de voz atenuada o trama SID.
El ruido sintetizado, usado como fuente para la
generación del PRN, se genera en el supresor de ruido 44 en el
dominio de la frecuencia. Se crean componentes reales e imaginarios
de un número de compartimentos FFT del espectro complejo del ruido
de confort usando un generador de números aleatorios 354.
Subsiguientemente, el espectro resultante se transforma a escala o
se pondera en el bloque 356 según una estimación del espectro del
ruido de fondo residual obtenido mediante la transformación a escala
de la estimación del espectro del ruido de fondo del bloque 334 y
usando las estimaciones del nivel de la voz con ruido y del ruido
del bloque 348. A continuación, el espectro de ruido seudoaleatorio
PRN así generado se mezcla con la trama repetida y atenuada una vez
que ambos se han transformado a escala adecuadamente. Finalmente, el
espectro de ruido artificial se transforma al dominio del tiempo a
través de una IFFT 360, y se multiplica por una función de ventana
362 y a continuación se suma en el dominio del tiempo con las tramas
originales repetidas atenuadas en el bloque 364 de manera que
compense adecuadamente la reducción del nivel de ruido de fondo
residual provocada por la atenuación del decodificador.
La transformación a escala de la estimación del
ruido de fondo residual se lleva a cabo de la manera siguiente. Tal
como se ha mencionado anteriormente, el nivel de atenuación usado en
el decodificador de voz para las tramas repetidas en unas
condiciones de trama defectuosa se determina comparando el promedio
de la amplitud de la trama actual con el correspondiente a la
última trama de voz buena para generar coeficientes de atenuación.
Los coeficientes de atenuación se determinan a partir de una
relación del promedio de la potencia de la trama repetida con
respecto a un valor almacenado. El promedio de la potencia de la
trama actual se almacena a continuación en la memoria de
coeficientes de ganancia de atenuación 358.
Subsiguientemente, el complemento de la relación
del promedio de la potencia de la trama de voz actual con respecto
al promedio de la potencia almacenado de la última trama buena se
usa para transformar a escala el espectro PRN generado de manera
que cuando el nivel de ruido de fondo residual se atenúe, la
aportación seudoaleatoria se incremente de forma
correspondiente.
La suma de la estimación del ruido de fondo
residual y el ruido seudoaleatorio transformado a escala produce la
señal de voz de salida mejorada y(n) según la siguiente
ecuación:
15y(n)
= \hat{s}(n) + A \cdot (1 - G_{RFA} (n))
v(n),
\newpage
en la que \hat{s}(n) es la
señal de voz o de ruido de confort atenuada por el manejador de
tramas defectuosas 38 del decodificador de voz y procesada en el
supresor de ruido 44, v(n) es la señal PRN y
G_{RFA}(n) es el coeficiente de la ganancia de atenuación
de las tramas repetidas correspondiente a la trama de voz n. A es
una constante de escala que tiene un valor de aproximadamente 1,49.
La constante de escala A surge a partir de dos aportaciones. En
primer lugar, el cálculo de la estimación del espectro del ruido de
fondo residual se realiza originariamente usando una señal a la que
se le ha aplicado un ventanaje, mientras que el espectro complejo
aleatorio se genera considerando una secuencia en el dominio del
tiempo sin aplicación de ventanaje. En segundo lugar, a través de
la IFFT, la energía del PRN se distribuye sobre la totalidad de las
128 muestras (la longitud de la FFT) aunque disminuye a medida que
a la señal artificial se le aplica un ventanaje para adecuarse al
ventanaje de la señal original. Por otro lado, el espectro del ruido
de fondo residual se calcula únicamente a partir de 98 muestras de
entrada de la señal original y 30 ceros (relleno con ceros). Por
esta razón, la constante de escala A se usa de manera que no se
subestime la energía del
PRN.
En el códec de voz GSM de Velocidad Completa
(FR), el retorno gradual desde el estado de silenciamiento se
controla con respecto a la amplitud de bloque codificada
seudologarítmica Xmaxcr de cada una de entre cuatro subtramas de
una trama de voz. Si Xmaxcr supera la muestra correspondiente de una
secuencia de recuperación de amplitud predefinida para cualquier
trama durante el periodo de retorno gradual, dicha magnitud se acota
según el valor de la muestra mencionada. La aparición de esta
condición se le marca al supresor de ruido 44 de manera que se
calcula el factor de escala correspondiente al espectro PRN tal como
se ha descrito anteriormente. En cualquier otro caso, no se añade
ningún PRN a la salida durante el periodo de recuperación.
Aunque la adición del PRN generado reduce las
molestias provocadas por un nivel de ruido que varía rápidamente,
también reduce la capacidad de la atenuación de tramas repetidas
para informar al usuario sobre las condiciones del canal. No
obstante, en la voz se producen huecos que informan al usuario sobre
la existencia de un problema. En cualquier caso, para asegurarse de
que al usuario se le mantiene informado sobre el deterioro de las
condiciones del canal, se usa un mecanismo de desvanecimiento. Este
mecanismo desactiva la adición del PRN después de un periodo de
tiempo breve y de este modo permite que la señal silenciada se
desvanezca completamente. Esta situación se alcanza usando un
contador de tramas para determinar el número de tramas durante las
cuales está activa la adición del PRN sin interrupciones. Cuando el
contador supera un valor umbral, se hace que la ganancia del PRN se
desvanezca gradualmente decrementándola de 1 a 0 en intervalos
suficientemente pequeños durante un número predeterminado de
tramas. En una de las formas de realización de la invención, el
desvanecimiento se inicia después de un segundo de adición continua
de PRN y el periodo de desvanecimiento es 200 ms.
En la Figura 5 se muestra un diagrama de flujo
que muestra la interrelación de por lo menos algunas de las
invenciones.
La Figura 6 muestra un sistema de comunicaciones
móviles 600 que comprende una red celular 602 y terminales móviles
604. La red celular 602 comprende estaciones transceptoras base
(BTS) 606 conectadas a centros de conmutación móvil (MSC) 608 a
través de unidades de transcodificación (TRAU) 610. Los MSC están
conectados a otra red 612 la cual transmite llamadas. Esta última
puede formar parte de la red celular 602 ó puede ser una red
telefónica pública conmutada (PTSN).
Cada uno de los terminales móviles 604 comprende
un supresor de ruido 614 para suprimir ruido tanto en la señal
transmitida como en las señales recibidas por los terminales móviles
604.
Cuando se usa un terminal móvil 604 para
realizar una llamada, el mismo produce una señal digital a la cual
se le suprime el ruido en su supresor de ruido 614, se le codifica
la voz en su codificador de voz y se codifica en canal en su
codificador de canal. A continuación, la señal codificada se
transmite en una dirección de enlace ascendente hacia la red
celular 602 en la que es recibida por la estación transceptora base
606 y a continuación decodificada en las unidades de
transcodificación 610 de vuelta a una señal digital la cual se
puede transmitir hacia delante, por ejemplo, a una PSTN o a otro
terminal móvil 604. En este último caso, la señal se transmite en
una dirección de enlace descendente hacia una unidad de
transcodificación 610 en la que se vuelve a codificar y a
continuación es transmitida por la estación transceptora base 606 a
otro terminal móvil 604 en el que se decodifica y a continuación se
suprime el ruido en el supresor de ruido 614.
Los supresores de ruido pueden estar presentes
en otros puntos de la red. Por ejemplo, los mismos se pueden
proporcionar en asociación con las unidades de transcodificación 610
de manera que actúen bien sobre una señal después de que la misma
haya sido decodificada o bien sobre una señal antes de que haya sido
decodificada. Además de ubicar supresores de ruido en la red 602 de
esta manera, también se pueden proporcionar otras características
de la invención en la red. Por ejemplo, las unidades de
transcodificación 610 pueden proporcionar indicaciones DTX y BFI.
Las mismas pueden ser usadas por los supresores de ruido de la red
para controlar la supresión de ruido tal como se ha descrito
anteriormente. Además, las unidades de transcodificación 610
incorporan las siguientes características
un detector para detectar y llenar huecos
provocados por tramas perdidas que han sido sustituidas por tramas
repetidas y atenuadas en una unidad anterior de tratamiento de
tramas defectuosas; y
funciones de control para controlar la supresión
de ruido con vistas a afrontar consideraciones de instalación en
tándem.
No obstante, estas características de la
invención, es decir, el detector y/o las funciones de control,
también se pueden proporcionar de forma alternativa o adicional en
los terminales móviles 604, particularmente para tratar una señal
de enlace ascendente.
Debería indicarse que los diversos aspectos de
la invención son independientes y pueden funcionar de forma
independiente. Por esta razón, en el terminal móvil o en la red se
pueden incorporar uno cualquiera o más de los aspectos según se
desee.
Si el supresor de ruido 44 se usa en una
conexión de enlace descendente en la cual existen códecs de voz de
velocidad variable, tales como los correspondientes usados en la
normativa de codificación de voz CDMA, es necesario afrontar
cuestiones adicionales. Las diversas velocidades binarias de
codificación de la voz, activadas según las características de la
señal de entrada en el extremo distante (es decir, transmisor),
producen señales de salida de voz y ruido profundamente diferentes.
Por otra parte, en la velocidad binaria más baja se aplica
típicamente alguna atenuación del nivel de la señal de salida y esto
produce una señal que se puede considerar esencialmente como un
tipo de ruido de confort. Por esta razón, una aplicación
satisfactoria del supresor de ruido de enlace descendente
conjuntamente con un códec de voz de velocidad variable
requiere:
- 1.
- El uso de varias estimaciones del espectro del ruido de fondo en correspondencia con cada una de las velocidades binarias de codificación de voz disponibles;
- 2.
- El uso de conjuntos de parámetros especializados para la actualización de la estimación de la potencia y el cálculo de la ganancia de atenuación conjuntamente con cada una de las velocidades binarias disponibles;
- 3.
- El uso de un cálculo de ganancia diferente conjuntamente con las velocidades binarias disponibles;
- 4.
- El uso de información sobre cualquier atenuación de nivel aplicada a señales codificadas con velocidades binarias bajas.
En un sistema que utiliza un códec de voz de
velocidad variable, para que el supresor de ruido funcione
eficazmente es preferible usar información sobre la velocidad
binaria usada de codificación de la voz que proporciona el
decodificador de voz.
Uno de los propósitos de la presente invención
es conseguir que la supresión de ruido sea viable, cuando se desee,
como fase de postprocesado para un decodificador de voz. Con este
fin, el supresor de ruido usa información del códec de voz
referente a su estado (DTX) y al estado del canal.
Aunque se han mostrado y descrito formas de
realización preferidas de la invención, debe entenderse que dichas
formas de realización se describen únicamente a título de ejemplo.
Los expertos en la materia se les ocurrirán múltiples variaciones,
cambios y sustituciones sin apartarse por ello del alcance de la
presente invención, el cual queda limitado únicamente por las
reivindicaciones adjuntas. Por consiguiente, las siguientes
reivindicaciones están destinadas a incluir todas estas variaciones
o equivalentes ya que las mismas quedan comprendidas dentro del
alcance de la invención.
Claims (19)
1. Supresor de ruido (300) para suprimir ruido
en una señal (314) que contiene ruido de fondo, comprendiendo el
supresor de ruido un estimador para realizar estimaciones de un
espectro de ruido de fondo (332, 334), en el que se usa una
indicación de por lo menos uno de entre una unidad de transmisión
discontinua (36) y un detector de errores de canal (38) para
controlar la estimación del espectro del ruido de fondo.
2. Supresor de ruido según la reivindicación 1,
en el que se suspende la actualización del espectro del ruido de
fondo estimado durante periodos en los cuales el detector de errores
de canal detecta errores de canal en la señal.
3. Supresor de ruido según la reivindicación 1 ó
2, que comprende un detector de actividad vocal (336) para
controlar la estimación del espectro del ruido de fondo.
4. Supresor de ruido según la reivindicación 3,
en el que el espectro del ruido de fondo estimado se actualiza
cuando el detector de actividad vocal indica que no hay presencia de
voz.
5. Supresor de ruido según la reivindicación 3 ó
4, en el que se usa una indicación de un detector de errores de
canal para controlar la estimación del espectro del ruido de fondo,
y en el cual el estado del detector de actividad vocal y/o su
memoria de decisiones anteriores de presencia/no presencia de voz se
congela/congelan cuando el detector de errores de canal detecta
errores de canal.
6. Supresor de ruido según cualquiera de las
reivindicaciones anteriores, en el que se usa una indicación de un
detector de errores de canal para controlar la estimación del
espectro del ruido de fondo, y en el cual se suspende la
actualización del espectro del ruido de fondo estimado durante
periodos en los cuales la unidad de transmisión discontinua está
indicando que no se está transmitiendo la señal.
7. Supresor de ruido según la reivindicación 6,
en el que un generador de ruido de confort genera un ruido de
confort durante periodos de tiempo en los cuales no se está
transmitiendo la señal.
8. Método de supresión de ruido para suprimir
ruido en una señal que contiene ruido de fondo, que comprende las
siguientes etapas:
se realiza una estimación de un espectro de
ruido de fondo;
se usa el espectro de ruido de fondo para
suprimir ruido en la señal;
se recibe una indicación para indicar el
funcionamiento de por lo menos uno de entre una unidad de
transmisión discontinua y un detector de errores de canal; y
se usa la indicación para controlar la etapa en
la que se realiza la estimación del espectro del ruido de
fondo.
9. Método de supresión de ruido según la
reivindicación 8, que comprende la etapa en la que se suspende la
actualización del espectro del ruido de fondo estimado durante
periodos en los cuales el detector de errores de canal está
detectando errores de canal en la señal.
10. Método según la reivindicación 8 ó la
reivindicación 9, que comprende la etapa en la que se controla la
estimación del espectro del ruido de fondo con un detector de
actividad vocal.
11. Método de supresión de ruido según la
reivindicación 10, que comprende la etapa en la que se actualiza el
espectro del ruido de fondo estimado cuando el detector de actividad
vocal indica que no hay presencia de voz.
12. Método de supresión de ruido según la
reivindicación 10 u 11, en el que se usa una indicación de un
detector de errores de canal para controlar la etapa en la que se
realiza la estimación del espectro del ruido de fondo, y que además
comprende la etapa en la que se congelan el estado del detector de
actividad vocal y/o su memoria de decisiones anteriores de
presencia/no presencia de voz cuando el detector de errores de canal
detecta errores de canal.
13. Método de supresión de ruido según
cualquiera de las reivindicaciones 8 a 12, en el que se usa una
indicación de un detector de errores de canal para controlar la
etapa en la que se realiza la estimación del espectro del ruido de
fondo, y que además comprende la etapa en la que se suspende la
actualización del espectro del ruido de fondo estimado durante
periodos en los cuales la unidad de transmisión discontinua indica
que no se está transmitiendo la señal.
14. Método de supresión de ruido según la
reivindicación 13, que comprende la etapa en la que un generador de
ruido de confort genera un ruido de confort durante periodos de
tiempo en los cuales no se transmite la señal.
15. Método de supresión de ruido según
cualquiera de las reivindicaciones 8 a 14, que se usa en un camino
de transmisión en un sistema de comunicaciones inalámbricas.
16. Método de supresión de ruido según la
reivindicación 15, que se encuentra en un camino inalámbrico de
enlace descendente desde una red de comunicaciones a un terminal de
comunicaciones.
17. Terminal móvil (10), que comprende un
supresor de ruido según cualquiera de las reivindicaciones 1 a 7,
una unidad de transmisión discontinua y un detector de errores de
canal.
18. Sistema de comunicaciones móviles (600), que
comprende una red de comunicaciones móviles (602) y una pluralidad
de terminales móviles (604) según la reivindicación 17.
19. Sistema de comunicaciones móviles, que
comprende un supresor de ruido según cualquiera de las
reivindicaciones 1 a 7, una unidad de transmisión discontinua y un
detector de errores de canal.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI19992452 | 1999-11-15 | ||
FI992452A FI116643B (fi) | 1999-11-15 | 1999-11-15 | Kohinan vaimennus |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2277861T3 true ES2277861T3 (es) | 2007-08-01 |
Family
ID=8555598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00977618T Expired - Lifetime ES2277861T3 (es) | 1999-11-15 | 2000-11-13 | Supresion de ruido. |
Country Status (11)
Country | Link |
---|---|
US (2) | US6810273B1 (es) |
EP (1) | EP1232496B1 (es) |
JP (1) | JP4897173B2 (es) |
CN (2) | CN1303585C (es) |
AT (1) | ATE350747T1 (es) |
AU (1) | AU1526601A (es) |
CA (1) | CA2384963C (es) |
DE (1) | DE60032797T2 (es) |
ES (1) | ES2277861T3 (es) |
FI (1) | FI116643B (es) |
WO (1) | WO2001037265A1 (es) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3070560B1 (en) * | 2015-03-16 | 2023-12-27 | Rockwell Automation Technologies, Inc. | System and method for determining sensor margins and/or diagnostic information for a sensor |
Families Citing this family (159)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI116643B (fi) * | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
US6473733B1 (en) * | 1999-12-01 | 2002-10-29 | Research In Motion Limited | Signal enhancement for voice coding |
JP2001318694A (ja) * | 2000-05-10 | 2001-11-16 | Toshiba Corp | 信号処理装置、信号処理方法および記録媒体 |
EP1241600A1 (de) * | 2001-03-13 | 2002-09-18 | Siemens Schweiz AG | Verfahren und Kommunikationssystem zur Generierung von Antwortmeldungen |
FR2824978B1 (fr) * | 2001-05-15 | 2003-09-19 | Wavecom Sa | Dispositif et procede de traitement d'un signal audio |
DE10138650A1 (de) * | 2001-08-07 | 2003-02-27 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verschlüsseln eines diskreten Signals sowie Verfahren und Vorrichtung zur Entschlüsselung |
DE10150519B4 (de) * | 2001-10-12 | 2014-01-09 | Hewlett-Packard Development Co., L.P. | Verfahren und Anordnung zur Sprachverarbeitung |
GB2382748A (en) * | 2001-11-28 | 2003-06-04 | Ipwireless Inc | Signal to noise plus interference ratio (SNIR) estimation with corection factor |
JP3561261B2 (ja) * | 2002-05-30 | 2004-09-02 | 株式会社東芝 | データ通信装置及び通信制御方法 |
DE10251603A1 (de) * | 2002-11-06 | 2004-05-19 | Dr.Ing.H.C. F. Porsche Ag | Verfahren zur Störgeräuschunterdrückung |
US7103729B2 (en) * | 2002-12-26 | 2006-09-05 | Intel Corporation | Method and apparatus of memory management |
US20040125965A1 (en) * | 2002-12-27 | 2004-07-01 | William Alberth | Method and apparatus for providing background audio during a communication session |
US7738848B2 (en) * | 2003-01-14 | 2010-06-15 | Interdigital Technology Corporation | Received signal to noise indicator |
US20040235423A1 (en) * | 2003-01-14 | 2004-11-25 | Interdigital Technology Corporation | Method and apparatus for network management using perceived signal to noise and interference indicator |
EP1443498B1 (en) * | 2003-01-24 | 2008-03-19 | Sony Ericsson Mobile Communications AB | Noise reduction and audio-visual speech activity detection |
US7024358B2 (en) * | 2003-03-15 | 2006-04-04 | Mindspeed Technologies, Inc. | Recovering an erased voice frame with time warping |
KR100506224B1 (ko) | 2003-05-07 | 2005-08-05 | 삼성전자주식회사 | 이동 통신 단말기에서 노이즈 제어장치 및 방법 |
US20050091049A1 (en) * | 2003-10-28 | 2005-04-28 | Rongzhen Yang | Method and apparatus for reduction of musical noise during speech enhancement |
US7245878B2 (en) * | 2003-10-28 | 2007-07-17 | Spreadtrum Communications Corporation | Method and apparatus for silent frame detection in a GSM communications system |
CN1617606A (zh) * | 2003-11-12 | 2005-05-18 | 皇家飞利浦电子股份有限公司 | 一种在语音信道传输非语音数据的方法及装置 |
CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
US7499686B2 (en) * | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
CN100466671C (zh) * | 2004-05-14 | 2009-03-04 | 华为技术有限公司 | 语音切换方法及其装置 |
US20060018457A1 (en) * | 2004-06-25 | 2006-01-26 | Takahiro Unno | Voice activity detectors and methods |
FI20045315A (fi) * | 2004-08-30 | 2006-03-01 | Nokia Corp | Ääniaktiivisuuden havaitseminen äänisignaalissa |
US10004110B2 (en) * | 2004-09-09 | 2018-06-19 | Interoperability Technologies Group Llc | Method and system for communication system interoperability |
FR2875633A1 (fr) * | 2004-09-17 | 2006-03-24 | France Telecom | Procede et dispositif d'evaluation de l'efficacite d'une fonction de reduction de bruit destinee a etre appliquee a des signaux audio |
SE0402372D0 (sv) * | 2004-09-30 | 2004-09-30 | Ericsson Telefon Ab L M | Signal coding |
US7917562B2 (en) * | 2004-10-29 | 2011-03-29 | Stanley Pietrowicz | Method and system for estimating and applying a step size value for LMS echo cancellers |
US7983720B2 (en) * | 2004-12-22 | 2011-07-19 | Broadcom Corporation | Wireless telephone with adaptive microphone array |
US20070116300A1 (en) * | 2004-12-22 | 2007-05-24 | Broadcom Corporation | Channel decoding for wireless telephones with multiple microphones and multiple description transmission |
US8509703B2 (en) * | 2004-12-22 | 2013-08-13 | Broadcom Corporation | Wireless telephone with multiple microphones and multiple description transmission |
US20060133621A1 (en) * | 2004-12-22 | 2006-06-22 | Broadcom Corporation | Wireless telephone having multiple microphones |
US20060136201A1 (en) * | 2004-12-22 | 2006-06-22 | Motorola, Inc. | Hands-free push-to-talk radio |
CA2596341C (en) | 2005-01-31 | 2013-12-03 | Sonorit Aps | Method for concatenating frames in communication system |
US8102872B2 (en) * | 2005-02-01 | 2012-01-24 | Qualcomm Incorporated | Method for discontinuous transmission and accurate reproduction of background noise information |
FR2882458A1 (fr) * | 2005-02-18 | 2006-08-25 | France Telecom | Procede de mesure de la gene due au bruit dans un signal audio |
WO2006104555A2 (en) * | 2005-03-24 | 2006-10-05 | Mindspeed Technologies, Inc. | Adaptive noise state update for a voice activity detector |
WO2006116132A2 (en) * | 2005-04-21 | 2006-11-02 | Srs Labs, Inc. | Systems and methods for reducing audio noise |
NO324318B1 (no) * | 2005-04-29 | 2007-09-24 | Tandberg Telecom As | Fremgangsmate og anordning for stoydeteksjon. |
JP4551817B2 (ja) * | 2005-05-20 | 2010-09-29 | Okiセミコンダクタ株式会社 | ノイズレベル推定方法及びその装置 |
WO2006136901A2 (en) * | 2005-06-18 | 2006-12-28 | Nokia Corporation | System and method for adaptive transmission of comfort noise parameters during discontinuous speech transmission |
JP2007124048A (ja) * | 2005-10-25 | 2007-05-17 | Ntt Docomo Inc | 通信制御装置及び通信制御方法 |
GB2432758B (en) * | 2005-11-26 | 2008-09-10 | Wolfson Ltd | Auto device and method |
JP4863713B2 (ja) * | 2005-12-29 | 2012-01-25 | 富士通株式会社 | 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム |
US8345890B2 (en) | 2006-01-05 | 2013-01-01 | Audience, Inc. | System and method for utilizing inter-microphone level differences for speech enhancement |
EP1814109A1 (en) | 2006-01-27 | 2007-08-01 | Texas Instruments Incorporated | Voice amplification apparatus for modelling the Lombard effect |
US8194880B2 (en) | 2006-01-30 | 2012-06-05 | Audience, Inc. | System and method for utilizing omni-directional microphones for speech enhancement |
US8744844B2 (en) * | 2007-07-06 | 2014-06-03 | Audience, Inc. | System and method for adaptive intelligent noise suppression |
US8204252B1 (en) | 2006-10-10 | 2012-06-19 | Audience, Inc. | System and method for providing close microphone adaptive array processing |
US9185487B2 (en) | 2006-01-30 | 2015-11-10 | Audience, Inc. | System and method for providing noise suppression utilizing null processing noise subtraction |
EP1821553B1 (en) | 2006-02-16 | 2012-04-11 | Imerj, Limited | Method and system for converting a voice message into a text message |
US7953069B2 (en) * | 2006-04-18 | 2011-05-31 | Cisco Technology, Inc. | Device and method for estimating audiovisual quality impairment in packet networks |
GB2437559B (en) * | 2006-04-26 | 2010-12-22 | Zarlink Semiconductor Inc | Low complexity noise reduction method |
US8934641B2 (en) | 2006-05-25 | 2015-01-13 | Audience, Inc. | Systems and methods for reconstructing decomposed audio signals |
US8150065B2 (en) | 2006-05-25 | 2012-04-03 | Audience, Inc. | System and method for processing an audio signal |
US8849231B1 (en) | 2007-08-08 | 2014-09-30 | Audience, Inc. | System and method for adaptive power control |
US8204253B1 (en) | 2008-06-30 | 2012-06-19 | Audience, Inc. | Self calibration of audio device |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
EP2038885A1 (en) * | 2006-05-31 | 2009-03-25 | Agere Systems Inc. | Noise reduction by mobile communication devices in non-call situations |
US20090287479A1 (en) * | 2006-06-29 | 2009-11-19 | Nxp B.V. | Sound frame length adaptation |
JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
CN101193139B (zh) * | 2006-11-20 | 2011-11-30 | 鸿富锦精密工业(深圳)有限公司 | 一种可滤除环境音的方法及其手机 |
US9058819B2 (en) * | 2006-11-24 | 2015-06-16 | Blackberry Limited | System and method for reducing uplink noise |
KR100788706B1 (ko) * | 2006-11-28 | 2007-12-26 | 삼성전자주식회사 | 광대역 음성 신호의 부호화/복호화 방법 |
JP2008148179A (ja) * | 2006-12-13 | 2008-06-26 | Fujitsu Ltd | 音声信号処理装置および自動利得制御装置における雑音抑圧処理方法 |
US8352257B2 (en) * | 2007-01-04 | 2013-01-08 | Qnx Software Systems Limited | Spectro-temporal varying approach for speech enhancement |
CN101246688B (zh) * | 2007-02-14 | 2011-01-12 | 华为技术有限公司 | 一种对背景噪声信号进行编解码的方法、系统和装置 |
US8259926B1 (en) | 2007-02-23 | 2012-09-04 | Audience, Inc. | System and method for 2-channel and 3-channel acoustic echo cancellation |
EP1995722B1 (en) | 2007-05-21 | 2011-10-12 | Harman Becker Automotive Systems GmbH | Method for processing an acoustic input signal to provide an output signal with reduced noise |
CN101321201B (zh) * | 2007-06-06 | 2011-03-16 | 联芯科技有限公司 | 回声消除装置、通信终端及确定回声时延的方法 |
US8189766B1 (en) | 2007-07-26 | 2012-05-29 | Audience, Inc. | System and method for blind subband acoustic echo cancellation postfiltering |
US8538492B2 (en) * | 2007-08-31 | 2013-09-17 | Centurylink Intellectual Property Llc | System and method for localized noise cancellation |
US8194871B2 (en) * | 2007-08-31 | 2012-06-05 | Centurylink Intellectual Property Llc | System and method for call privacy |
JP2009063928A (ja) * | 2007-09-07 | 2009-03-26 | Fujitsu Ltd | 補間方法、情報処理装置 |
BRPI0816792B1 (pt) * | 2007-09-12 | 2020-01-28 | Dolby Laboratories Licensing Corp | método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo |
EP2191465B1 (en) * | 2007-09-12 | 2011-03-09 | Dolby Laboratories Licensing Corporation | Speech enhancement with noise level estimation adjustment |
JP5483000B2 (ja) * | 2007-09-19 | 2014-05-07 | 日本電気株式会社 | 雑音抑圧装置、その方法及びプログラム |
US8656415B2 (en) * | 2007-10-02 | 2014-02-18 | Conexant Systems, Inc. | Method and system for removal of clicks and noise in a redirected audio stream |
US8428661B2 (en) * | 2007-10-30 | 2013-04-23 | Broadcom Corporation | Speech intelligibility in telephones with multiple microphones |
US8335308B2 (en) * | 2007-10-31 | 2012-12-18 | Centurylink Intellectual Property Llc | Method, system, and apparatus for attenuating dual-tone multiple frequency confirmation tones in a telephone set |
CN100555414C (zh) * | 2007-11-02 | 2009-10-28 | 华为技术有限公司 | 一种dtx判决方法和装置 |
US7856252B2 (en) * | 2007-11-02 | 2010-12-21 | Agere Systems Inc. | Method for seamless noise suppression on wideband to narrowband cell switching |
US20090150144A1 (en) * | 2007-12-10 | 2009-06-11 | Qnx Software Systems (Wavemakers), Inc. | Robust voice detector for receive-side automatic gain control |
US8180064B1 (en) | 2007-12-21 | 2012-05-15 | Audience, Inc. | System and method for providing voice equalization |
US8143620B1 (en) | 2007-12-21 | 2012-03-27 | Audience, Inc. | System and method for adaptive classification of audio sources |
US8194882B2 (en) | 2008-02-29 | 2012-06-05 | Audience, Inc. | System and method for providing single microphone noise suppression fallback |
US8355511B2 (en) | 2008-03-18 | 2013-01-15 | Audience, Inc. | System and method for envelope-based acoustic echo cancellation |
CN100550133C (zh) * | 2008-03-20 | 2009-10-14 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
CN101335000B (zh) * | 2008-03-26 | 2010-04-21 | 华为技术有限公司 | 编码的方法及装置 |
KR101317813B1 (ko) * | 2008-03-31 | 2013-10-15 | (주)트란소노 | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 |
KR101335417B1 (ko) * | 2008-03-31 | 2013-12-05 | (주)트란소노 | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 |
US9142221B2 (en) * | 2008-04-07 | 2015-09-22 | Cambridge Silicon Radio Limited | Noise reduction |
US8244528B2 (en) | 2008-04-25 | 2012-08-14 | Nokia Corporation | Method and apparatus for voice activity determination |
US8275136B2 (en) | 2008-04-25 | 2012-09-25 | Nokia Corporation | Electronic device speech enhancement |
US8611556B2 (en) | 2008-04-25 | 2013-12-17 | Nokia Corporation | Calibrating multiple microphones |
US9373339B2 (en) * | 2008-05-12 | 2016-06-21 | Broadcom Corporation | Speech intelligibility enhancement system and method |
US9197181B2 (en) * | 2008-05-12 | 2015-11-24 | Broadcom Corporation | Loudness enhancement system and method |
US8300801B2 (en) * | 2008-06-26 | 2012-10-30 | Centurylink Intellectual Property Llc | System and method for telephone based noise cancellation |
US8774423B1 (en) | 2008-06-30 | 2014-07-08 | Audience, Inc. | System and method for controlling adaptivity of signal modification using a phantom coefficient |
US8521530B1 (en) | 2008-06-30 | 2013-08-27 | Audience, Inc. | System and method for enhancing a monaural audio signal |
EP2304719B1 (en) * | 2008-07-11 | 2017-07-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, methods for providing an audio stream and computer program |
ES2678415T3 (es) * | 2008-08-05 | 2018-08-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica |
US8914282B2 (en) * | 2008-09-30 | 2014-12-16 | Alon Konchitsky | Wind noise reduction |
US20100082339A1 (en) * | 2008-09-30 | 2010-04-01 | Alon Konchitsky | Wind Noise Reduction |
DE102009007245B4 (de) | 2009-02-03 | 2010-11-11 | Innovationszentrum für Telekommunikationstechnik GmbH IZT | Funksignalempfang |
CN102668411B (zh) * | 2009-02-09 | 2014-07-09 | 华为技术有限公司 | Dtx比特的映射方法和设备 |
GB2473267A (en) | 2009-09-07 | 2011-03-09 | Nokia Corp | Processing audio signals to reduce noise |
GB2473266A (en) * | 2009-09-07 | 2011-03-09 | Nokia Corp | An improved filter bank |
EP2486735B1 (en) * | 2009-10-08 | 2015-05-06 | Widex A/S | Method for control of adaptation of feedback suppression in a hearing aid, and a hearing aid |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US9008329B1 (en) | 2010-01-26 | 2015-04-14 | Audience, Inc. | Noise reduction using multi-feature cluster tracker |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
CN101859569B (zh) * | 2010-05-27 | 2012-08-15 | 上海朗谷电子科技有限公司 | 数字音频信号处理降噪的方法 |
CN102576543B (zh) * | 2010-07-26 | 2014-09-10 | 松下电器产业株式会社 | 多输入噪声抑制装置、多输入噪声抑制方法以及集成电路 |
US9263049B2 (en) * | 2010-10-25 | 2016-02-16 | Polycom, Inc. | Artifact reduction in packet loss concealment |
US8311817B2 (en) * | 2010-11-04 | 2012-11-13 | Audience, Inc. | Systems and methods for enhancing voice quality in mobile device |
US8831937B2 (en) * | 2010-11-12 | 2014-09-09 | Audience, Inc. | Post-noise suppression processing to improve voice quality |
US8983833B2 (en) * | 2011-01-24 | 2015-03-17 | Continental Automotive Systems, Inc. | Method and apparatus for masking wind noise |
US20140006019A1 (en) * | 2011-03-18 | 2014-01-02 | Nokia Corporation | Apparatus for audio signal processing |
CN103765511B (zh) * | 2011-07-07 | 2016-01-20 | 纽昂斯通讯公司 | 嘈杂语音信号中的脉冲干扰的单信道抑制 |
US9282279B2 (en) | 2011-11-30 | 2016-03-08 | Nokia Technologies Oy | Quality enhancement in multimedia capturing |
CN103177728B (zh) * | 2011-12-21 | 2015-07-29 | 中国移动通信集团广西有限公司 | 语音信号降噪处理方法及装置 |
US11021737B2 (en) | 2011-12-22 | 2021-06-01 | President And Fellows Of Harvard College | Compositions and methods for analyte detection |
CN103187065B (zh) | 2011-12-30 | 2015-12-16 | 华为技术有限公司 | 音频数据的处理方法、装置和系统 |
JP2013148724A (ja) * | 2012-01-19 | 2013-08-01 | Sony Corp | 雑音抑圧装置、雑音抑圧方法およびプログラム |
US9064497B2 (en) * | 2012-02-22 | 2015-06-23 | Htc Corporation | Method and apparatus for audio intelligibility enhancement and computing apparatus |
CN103325386B (zh) | 2012-03-23 | 2016-12-21 | 杜比实验室特许公司 | 用于信号传输控制的方法和系统 |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
JP6162254B2 (ja) * | 2013-01-08 | 2017-07-12 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 |
PL3011557T3 (pl) | 2013-06-21 | 2017-10-31 | Fraunhofer Ges Forschung | Urządzenie i sposób do udoskonalonego stopniowego zmniejszania sygnału w przełączanych układach kodowania sygnału audio podczas ukrywania błędów |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
JP6303340B2 (ja) * | 2013-08-30 | 2018-04-04 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
US9502028B2 (en) * | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
GB2519379B (en) | 2013-10-21 | 2020-08-26 | Nokia Technologies Oy | Noise reduction in multi-microphone systems |
US9437212B1 (en) * | 2013-12-16 | 2016-09-06 | Marvell International Ltd. | Systems and methods for suppressing noise in an audio signal for subbands in a frequency domain based on a closed-form solution |
EP3719801B1 (en) * | 2013-12-19 | 2023-02-01 | Telefonaktiebolaget LM Ericsson (publ) | Estimation of background noise in audio signals |
WO2015130283A1 (en) * | 2014-02-27 | 2015-09-03 | Nuance Communications, Inc. | Methods and apparatus for adaptive gain control in a communication system |
JP2015206874A (ja) * | 2014-04-18 | 2015-11-19 | 富士通株式会社 | 信号処理装置、信号処理方法、及び、プログラム |
CN106797512B (zh) | 2014-08-28 | 2019-10-25 | 美商楼氏电子有限公司 | 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质 |
US9978388B2 (en) | 2014-09-12 | 2018-05-22 | Knowles Electronics, Llc | Systems and methods for restoration of speech components |
US9886966B2 (en) | 2014-11-07 | 2018-02-06 | Apple Inc. | System and method for improving noise suppression using logistic function and a suppression target value for automatic speech recognition |
US9749746B2 (en) * | 2015-04-29 | 2017-08-29 | Fortemedia, Inc. | Devices and methods for reducing the processing time of the convergence of a spatial filter |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
US11483663B2 (en) | 2016-05-30 | 2022-10-25 | Oticon A/S | Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal |
US10861478B2 (en) * | 2016-05-30 | 2020-12-08 | Oticon A/S | Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal |
US10433076B2 (en) * | 2016-05-30 | 2019-10-01 | Oticon A/S | Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal |
CN107123419A (zh) * | 2017-05-18 | 2017-09-01 | 北京大生在线科技有限公司 | Sphinx语速识别中背景降噪的优化方法 |
EP3416167B1 (en) | 2017-06-16 | 2020-05-13 | Nxp B.V. | Signal processor for single-channel periodic noise reduction |
JP7155531B2 (ja) * | 2018-02-14 | 2022-10-19 | 株式会社島津製作所 | 磁気浮上制御装置および真空ポンプ |
EP3807878B1 (en) | 2018-06-14 | 2023-12-13 | Pindrop Security, Inc. | Deep neural network based speech enhancement |
JP7195344B2 (ja) | 2018-07-27 | 2022-12-23 | ドルビー ラボラトリーズ ライセンシング コーポレイション | パーベイシブ・リステニングのための強制ギャップ挿入 |
KR102280692B1 (ko) * | 2019-08-12 | 2021-07-22 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스 |
CN114097031A (zh) * | 2020-06-23 | 2022-02-25 | 谷歌有限责任公司 | 智能背景噪声估计器 |
TWI756817B (zh) * | 2020-09-08 | 2022-03-01 | 瑞昱半導體股份有限公司 | 語音活動偵測裝置與方法 |
CN112259125B (zh) * | 2020-10-23 | 2023-06-16 | 江苏理工学院 | 基于噪声的舒适度评价方法、系统、设备及可存储介质 |
US11915715B2 (en) | 2021-06-24 | 2024-02-27 | Cisco Technology, Inc. | Noise detector for targeted application of noise removal |
CN113421595B (zh) * | 2021-08-25 | 2021-11-09 | 成都启英泰伦科技有限公司 | 一种利用神经网络的语音活性检测方法 |
JP2024532759A (ja) | 2021-08-26 | 2024-09-10 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ユーザ生成コンテンツにおける環境ノイズの検出 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5047930A (en) * | 1987-06-26 | 1991-09-10 | Nicolet Instrument Corporation | Method and system for analysis of long term physiological polygraphic recordings |
FI92535C (fi) * | 1992-02-14 | 1994-11-25 | Nokia Mobile Phones Ltd | Kohinan vaimennusjärjestelmä puhesignaaleille |
EP0707763B1 (en) * | 1993-07-07 | 2001-08-29 | Picturetel Corporation | Reduction of background noise for speech enhancement |
DE19520353A1 (de) * | 1995-06-07 | 1996-12-12 | Thomson Brandt Gmbh | Verfahren und Schaltungsanordnung zur Verbesserung des Empfangsverhaltens bei der Übertragung von digitalen Signalen |
FI100840B (fi) | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
US5771440A (en) * | 1996-05-31 | 1998-06-23 | Motorola, Inc. | Communication device with dynamic echo suppression and background noise estimation |
JP3297307B2 (ja) * | 1996-06-14 | 2002-07-02 | 沖電気工業株式会社 | 背景雑音消去装置 |
US5835486A (en) * | 1996-07-11 | 1998-11-10 | Dsc/Celcore, Inc. | Multi-channel transcoder rate adapter having low delay and integral echo cancellation |
US5881373A (en) * | 1996-08-28 | 1999-03-09 | Telefonaktiebolaget Lm Ericsson | Muting a microphone in radiocommunication systems |
US5867574A (en) * | 1997-05-19 | 1999-02-02 | Lucent Technologies Inc. | Voice activity detection system and method |
KR100234330B1 (ko) * | 1997-09-30 | 1999-12-15 | 윤종용 | Ofdm 시스템 수신기의 보호 구간 종류 검출장치 및 그 방법 |
NO306027B1 (no) | 1997-10-27 | 1999-09-06 | Testtech Services As | Apparat for å fjerne sand i en undervannsbrönn |
EP1041539A4 (en) * | 1997-12-08 | 2001-09-19 | Mitsubishi Electric Corp | METHOD AND DEVICE FOR PROCESSING THE SOUND SIGNAL |
US6070137A (en) * | 1998-01-07 | 2000-05-30 | Ericsson Inc. | Integrated frequency-domain voice coding using an adaptive spectral enhancement filter |
US6282176B1 (en) * | 1998-03-20 | 2001-08-28 | Cirrus Logic, Inc. | Full-duplex speakerphone circuit including a supplementary echo suppressor |
DE19822957C1 (de) * | 1998-05-22 | 2000-05-25 | Deutsch Zentr Luft & Raumfahrt | Verfahren zur Detektion und Unterdrückung von Störsignalen in SAR-Daten und Einrichtung zur Durchführung des Verfahrens |
CA2334195A1 (en) * | 1998-06-08 | 1999-12-16 | Telefonaktiebolaget Lm Ericsson | System for elimination of audible effects of handover |
GB2342829B (en) * | 1998-10-13 | 2003-03-26 | Nokia Mobile Phones Ltd | Postfilter |
US6266633B1 (en) * | 1998-12-22 | 2001-07-24 | Itt Manufacturing Enterprises | Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus |
CA2390200A1 (en) * | 1999-11-03 | 2001-05-10 | Charles W. K. Gritton | Integrated voice processing system for packet networks |
FI116643B (fi) * | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
JP3566197B2 (ja) * | 2000-08-31 | 2004-09-15 | 松下電器産業株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
DE10222628B4 (de) * | 2002-05-17 | 2004-08-26 | Siemens Ag | Verfahren zum Auswerten eines Zeitsignals, das eine spektroskopische Information beinhaltet |
-
1999
- 1999-11-15 FI FI992452A patent/FI116643B/fi active IP Right Grant
-
2000
- 2000-11-13 ES ES00977618T patent/ES2277861T3/es not_active Expired - Lifetime
- 2000-11-13 AT AT00977618T patent/ATE350747T1/de not_active IP Right Cessation
- 2000-11-13 CN CNB200410056392XA patent/CN1303585C/zh not_active Expired - Lifetime
- 2000-11-13 WO PCT/FI2000/000989 patent/WO2001037265A1/en active IP Right Grant
- 2000-11-13 CA CA002384963A patent/CA2384963C/en not_active Expired - Lifetime
- 2000-11-13 JP JP2001537727A patent/JP4897173B2/ja not_active Expired - Lifetime
- 2000-11-13 DE DE60032797T patent/DE60032797T2/de not_active Expired - Lifetime
- 2000-11-13 AU AU15266/01A patent/AU1526601A/en not_active Abandoned
- 2000-11-13 EP EP00977618A patent/EP1232496B1/en not_active Expired - Lifetime
- 2000-11-13 CN CNB008157359A patent/CN1171202C/zh not_active Expired - Lifetime
- 2000-11-15 US US09/713,767 patent/US6810273B1/en not_active Expired - Lifetime
-
2004
- 2004-07-09 US US10/888,261 patent/US7171246B2/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3070560B1 (en) * | 2015-03-16 | 2023-12-27 | Rockwell Automation Technologies, Inc. | System and method for determining sensor margins and/or diagnostic information for a sensor |
Also Published As
Publication number | Publication date |
---|---|
AU1526601A (en) | 2001-05-30 |
CN1303585C (zh) | 2007-03-07 |
DE60032797D1 (de) | 2007-02-15 |
FI116643B (fi) | 2006-01-13 |
US6810273B1 (en) | 2004-10-26 |
CN1171202C (zh) | 2004-10-13 |
EP1232496A1 (en) | 2002-08-21 |
US7171246B2 (en) | 2007-01-30 |
CA2384963C (en) | 2010-01-12 |
CA2384963A1 (en) | 2001-05-25 |
ATE350747T1 (de) | 2007-01-15 |
JP4897173B2 (ja) | 2012-03-14 |
US20050027520A1 (en) | 2005-02-03 |
CN1390349A (zh) | 2003-01-08 |
CN1567433A (zh) | 2005-01-19 |
EP1232496B1 (en) | 2007-01-03 |
FI19992452A (fi) | 2001-05-16 |
WO2001037265A1 (en) | 2001-05-25 |
JP2003514473A (ja) | 2003-04-15 |
DE60032797T2 (de) | 2007-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2277861T3 (es) | Supresion de ruido. | |
ES2329060T3 (es) | Sistema y procedimiento para la expansion artificial mejorada del ancho de banda. | |
EP1337999B1 (en) | Method and system for comfort noise generation in speech communication | |
Beritelli et al. | Performance evaluation and comparison of G. 729/AMR/fuzzy voice activity detectors | |
ES2231812T3 (es) | Eliminacion del eco acustico en un sistema de comunicaciones moviles digital. | |
ES2525427T3 (es) | Un detector de voz y un método para suprimir sub-bandas en un detector de voz | |
KR100367533B1 (ko) | 음성활동검출구동방식잡음교정기및,신호처리장치및방법 | |
KR101038964B1 (ko) | 에코 제거/억제 방법 및 장치 | |
US20030043940A1 (en) | Digital automatic gain control with feedback induced noise suppression | |
ES2371455T3 (es) | Pre-procesamiento de datos digitales de audio para codecs de audio de móvil. | |
US9530430B2 (en) | Voice emphasis device | |
JP2008065090A (ja) | ノイズサプレス装置 | |
JP2003501925A (ja) | パラメトリックノイズモデル統計値を用いたコンフォートノイズの生成方法及び装置 | |
JP4825944B2 (ja) | レート判定誤りとそのアーティファクトの低減方法及び装置 | |
KR100848798B1 (ko) | 배경 노이즈의 고속 동적 추정을 위한 방법 | |
US8144862B2 (en) | Method and apparatus for the detection and suppression of echo in packet based communication networks using frame energy estimation | |
JP2003514264A (ja) | 雑音抑圧装置 | |
JP3603469B2 (ja) | 音声品質改善装置 | |
KR100624694B1 (ko) | 통화 연결음 음질개선장치 및 그 방법 | |
Gold et al. | Vocoded speech through fading channels | |
Villette et al. | A Multi-Rate Speech And Channel Codec: A GSM AMR Half-Rate Candidate | |
KR20100116102A (ko) | 통신 시스템에서 신호를 송신하는 방법 및 장치 |