ES2845154T3 - Aparato y procedimiento para procesar una señal de audio - Google Patents

Aparato y procedimiento para procesar una señal de audio Download PDF

Info

Publication number
ES2845154T3
ES2845154T3 ES17791008T ES17791008T ES2845154T3 ES 2845154 T3 ES2845154 T3 ES 2845154T3 ES 17791008 T ES17791008 T ES 17791008T ES 17791008 T ES17791008 T ES 17791008T ES 2845154 T3 ES2845154 T3 ES 2845154T3
Authority
ES
Spain
Prior art keywords
audio signal
value
noise suppression
filter
minimum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17791008T
Other languages
English (en)
Inventor
Anthony Lombard
Bernhard Birzer
Dirk Mahne
Edwin Mabande
Fabian Küch
Emanuel Habets
Paolo Annibale
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2845154T3 publication Critical patent/ES2845154T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/002Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

Aparato (100; 300; 400; 800; 900) para procesar una señal de audio (110), que comprende: un analizador de señal de audio (130; 830; 930) para analizar una señal de audio para determinar una pluralidad de valores de filtro de supresión de ruido (260; 364, 364a-c,) para una pluralidad de bandas de la señal de audio (215; 354), donde el analizador está configurado para determinar los valores de filtro de supresión de ruido de manera que un valor de filtro de supresión de ruido sea mayor que o igual a un valor mínimo de filtro de supresión de ruido (130b'; 240; 358c, 360a), y de manera que el valor mínimo de filtro de supresión de ruido dependa de una característica de la señal de audio (130c'); y un filtro (120; 310; 410; 820) para filtrar la señal de audio, donde el filtro se ajusta en base a los valores de filtro de supresión de ruido, donde el analizador de señal de audio está configurado para calcular un valor de ganancia a partir de una trama de la señal de audio como la característica de la señal de audio, y donde el analizador de señal de audio está configurado para calcular el valor mínimo del filtro de supresión de ruido de modo que el valor mínimo del filtro de supresión de ruido disminuya al aumentar el valor de ganancia.

Description

DESCRIPCIÓN
Aparato y procedimiento para procesar una señal de audio
[0001] La presente invención se refiere en general al procesamiento de señales de audio. De manera específica, la presente invención se refiere a una técnica y a un procedimiento para el control automático de los niveles de voz y ruido en una señal de audio.
Antecedentes
[0002] En la figura 13 se ilustra un escenario de comunicación de voz dúplex completo, donde la voz de un hablante de extremo cercano se captura por uno o varios micrófonos y se transmite a un hablante de extremo lejano que escucha el sonido capturado mediante altavoces o auriculares. Para mejorar tanto la comodidad de comprensión auditiva como la inteligibilidad para el oyente de extremo lejano se pueden aplicar algunas técnicas de procesamiento de señales de audio para eliminar o al menos atenuar componentes no deseados de sonido, incluyendo ecos acústicos y ruido de fondo y de sensores, al mismo tiempo que se conserva la voz del hablante de extremo cercano. Otro aspecto importante para mejorar la comodidad de compresión auditiva y la inteligibilidad es ajustar el nivel de la señal mejorada a un nivel confortable para el oyente de extremo lejano. Esto puede proporcionar un nivel consistente de voz a pesar de la sensibilidad del dispositivo de captura de sonido y a pesar de la distancia del hablante de extremo cercano al micrófono.
[0003] En este escenario de comunicación de voz dúplex completo, se deben eliminar completamente los ecos esporádicos usando cancelación de ecos acústicos, supresión de ecos acústicos, o una combinación de ambas técnicas, por ejemplo como se describe en [1, 2, 3]. En contraste, las perturbaciones más persistentes tales como el ruido de fondo o de sensores solo se pueden atenuar usualmente hasta una cierta cantidad para preservar la calidad de voz usando algunos procedimientos de reducción de ruido, por ejemplo como se describe en [4]. Por lo tanto, para ambientes acústicos demandantes (es decir, complejos o adversos), la señal resultante puede contener algunos componentes de ruido, atenuados pero aun audibles. El objetivo de un control de ganancia automática es llevar el nivel de señal de voz mejorada a un nivel predefinido y confortable. En la figura 14 se muestra una cadena típica de procesamiento de señal de audio, que incluye algo de control de eco basado ya sea en cancelación de ecos acústicos o supresión de ecos acústicos, un módulo de reducción de ruido y un módulo de control de ganancia automática. Un módulo de ruido cómodo al final de la cadena de procesamiento genera algún ruido aleatorio artificial para generar un nivel de ruido agradable y temporalmente suave en la salida del sistema. Se activa la inyección de ruido cómodo, por ejemplo, por el control de eco durante períodos de actividad de extremo lejano, por ejemplo como se describe en [5].
[0004] Adicionalmente, en la comunicación de voz, la reducción de ruido tiene como finalidad atenuar algún ruido de fondo o de sensor como estacionario o lentamente variable en tiempo, presente en una señal de audio al mismo tiempo que preserva la señal deseada de voz. Por ejemplo, esto se lleva a cabo en el dominio de frecuencia en una base de intervalo por intervalo. Por ejemplo, para cada intervalo de tiempo, las regiones espectrales que exhiben una baja relación de señal a ruido (SNR) se atenúan al mismo tiempo que se mantienen sin cambio las regiones de alta SNR. Adicionalmente, se puede considerar una relación de señal a interferencia (SIR) más general para tratar regiones espectrales, como se describe anteriormente.
[0005] En [6] un primer filtro de NR (= reducción de ruido) se computa de manera independiente de la ganancia de AGC (= control de ganancia automática). Un segundo filtro NR se computa a continuación al mover en escala el primer filtro NR como una función de la ganancia de AGC, es decir, para mayores ganancias de AGC, la ganancia de NR se disminuye (fuerte atenuación de ruido) mientras que para ganancias de AGC pequeñas, se incrementa la ganancia de NR (menos reducción de ruido)). El segundo filtro se aplica a la señal de entrada. En contraste, un aspecto de la presente invención es derivar un filtro que realice simultáneamente NR y AGC. Esto proporciona control completo sobre los niveles de voz y ruido de manera independiente.
[0006] Los documentos US 2007/0237271 A1, US 2013/0325458 A1, US 2016/0064009 A1, US 2009/0292536 A1 y US 2015/0348568 A1 se refieren a la reducción de ruido aplicada a una señal de audio basada en ponderación espectral con una adaptación de un ruido de fondo o una ganancia de supresión de ruido mínima basada en las características de la señal de audio.
[0007] En estos sistemas, existe un problema ya que, particularmente, los valores mínimos de filtro de supresión de ruido se ajustan de manera fija, dando como resultado una calidad reducida de audio de la señal de audio, procesada.
Resumen
[0008] La invención se define en las reivindicaciones adjuntas. Todas las apariciones de la palabra “realización(es)”, excepto las que corresponden a las reivindicaciones, se refieren a ejemplos útiles para comprender la invención que se presentaron originalmente pero que no representan las realizaciones de la invención actualmente reivindicadas. Estos ejemplos se muestran con fines ilustrativos únicamente.
[0009] Una realización preferida de acuerdo a la invención crea un aparato para procesar una señal de audio, que comprende un analizador de señal de audio para analizar una señal de audio para determinar una pluralidad de valores de filtro de supresión de ruido para una pluralidad de bandas de la señal de audio, donde el analizador se configura para determinar los valores de filtro de supresión de ruido de modo que un valor de un filtro de supresión de ruido sea mayor que o igual a un valor mínimo de filtro de supresión de ruido. Adicionalmente, el analizador de señal de audio se configura de tal forma que el valor mínimo de filtro de supresión de ruido depende de una característica de la señal de audio. Además, el aparato comprende un filtro para filtrar la señal de audio, donde el filtro se ajusta en base a los valores de filtro de supresión de ruido.
[0010] La realización descrita otorga una ventaja al ofrecer una calidad de audio mejorada de una señal de audio, procesada. La mejora es debida a los valores de filtro de supresión de ruido que se usan para filtrar una señal, donde los valores de filtro de supresión de ruido se ajustan de modo que sean mayores o iguales al valor mínimo de filtro de supresión de ruido. La elección del valor de filtro de supresión de ruido de manera descrita es ventajosa, de modo que se pueden evitar distorsiones de señal provocadas por el procesamiento de señal debido a valores pequeños de filtro de supresión de ruido. Adicionalmente, la elección del valor mínimo de filtro de supresión de ruido se realiza de una manera flexible en base a una característica de la señal de audio. La flexibilidad del valor mínimo de filtro de supresión de ruido se puede lograr, por ejemplo, de modo que se determine un valor mínimo pequeño de supresión de ruido cuando la característica de la señal de audio es grande o el valor mínimo de filtro de supresión de ruido se puede ajustar a un valor grande cuando es pequeña la característica de la señal de audio. De este modo, el valor mínimo de filtro de supresión de ruido se puede ajustar para una gran variedad de señales potenciales de audio. A través de la filtración de la señal de audio con los valores descritos de filtro de supresión de ruido, se puede obtener una señal de audio con mayor calidad, por ejemplo, caracterizada por un nivel más constante de ruido debido a la supresión de ruido. Además, se puede lograr una experiencia más confortable de comprensión auditiva de la señal de audio procesada puesto que el filtro suprime de manera efectiva el ruido debido al valor mínimo flexible de filtro de supresión de ruido.
[0011] Además, el aparato descrito puede ser ventajoso para procesar una señal de audio, de modo que un componente no deseado de señal, por ejemplo un componente de ruido de fondo, se suprime o atenúa y un componente deseado de señal se preserva o mejora. En particular, cuando, por ejemplo, se considera una señal de voz como un componente deseado de la señal de audio, la realización descrita permite la preservación de la señal de voz. Adicionalmente, la inteligibilidad de la señal de voz se puede incrementar debido a una reducción de un componente no deseado de señal. Además, por ejemplo, la audición de oyentes con discapacidad puede beneficiarse bastante de una señal después del procesamiento con la realización mencionada anteriormente, puesto que la inteligibilidad de una señal de voz es un tema de importancia suprema para la audición de personas con discapacidad. Adicionalmente, la realización descrita permite una experiencia confortable de comprensión auditiva a un oyente, puesto que se atenúan o eliminan componentes no deseados y distractores de la señal. Adicionalmente, la realización descrita permite mejorar un componente deseado de señal, cuando la señal de audio se adquirió, por ejemplo, por un micrófono y la energía del componente deseado de señal varía debido, por ejemplo, a la distancia variable al micrófono de una fuente, sensibilidad variable del micrófono o una cantidad variable de energía emitida por una fuente (por ejemplo, una persona que habla).
[0012] Según una realización preferida, el analizador de señal de audio se configura para determinar los valores de filtro de supresión de ruido usando una decisión máxima con base en una pluralidad de valores no restringidos de filtro de supresión de ruido y el valor mínimo de filtro de supresión de ruido, el valor mínimo de filtro de supresión de ruido que es igual para la pluralidad de bandas de la señal de audio. Un analizador de señal de audio como se describe anteriormente puede ser ventajoso al evitar distorsiones de voz o tonos musicales, por ejemplo debido a supresión agresiva de ruido. Por ejemplo, cuando un valor de filtro de supresión de ruido para una banda se estima en base a una SNR (= relación de señal a ruido) y, por ejemplo, se emplea un estimador no fiable de SNR, indicando una SNR de 0, donde aun hay algún componente deseado de señal presente, se puede suprimir completamente una banda. La supresión total de una banda puede conducir a artefactos no deseados, por ejemplo, distorsión de voz, cuando la voz estuvo realmente presente en la banda, o tonos musicales, por ejemplo debido a la formación de ruido. Adicionalmente, la realización descrita facilita una misma cantidad de supresión mínima de ruido para una pluralidad de bandas.
[0013] Según una realización preferida, el analizador de señal de audio se configura para calcular un valor de ganancia a partir de un intervalo de la señal de audio como la característica de la señal de audio. Un valor de ganancia puede ser ventajoso para mejorar la señal de audio. Por ejemplo, cuando la señal de audio contiene un componente deseado de señal con una energía fuertemente variable, el valor de ganancia se puede aplicar a la señal a fin de compensar la variación de la energía. Por ejemplo, cuando el componente deseado de señal es una señal de voz, se puede beneficiar bastante la inteligibilidad a partir de la aplicación de un valor de ganancia a la señal de audio. Adicionalmente, por ejemplo, también se puede incrementar la comodidad de comprensión auditiva cuando, por la aplicación de un valor de ganancia, se logra una energía de señal deseada más constante.
[0014] Según una realización preferida, el analizador de señal de audio se configura para calcular el valor mínimo de filtro de supresión de ruido en base a un valor predeterminado de supresión de ruido y el valor de ganancia. El cálculo de valor mínimo de filtro de supresión de ruido como se describe anteriormente puede ser beneficioso para adaptar un valor mínimo de filtro de supresión de ruido, de modo que, aunque un componente deseado de señal de la señal de audio se puede amplificar por la aplicación del valor de ganancia, aun se puede suprimir de manera eficaz un componente no deseado de señal, por ejemplo, ruido de fondo. Por lo tanto, por ejemplo, no se estará amplificando una respuesta total del sistema de la realización preferida descrita para un componente no deseado de señal, es decir, se atenuará o pasará sin alterar el componente no deseado de señal.
[0015] En una realización adicional preferida, el analizador de señal de audio se configura para calcular el valor mínimo de filtro de supresión de ruido de modo que el valor mínimo de filtro de supresión de ruido disminuye con un valor creciente de ganancia. La proporcionalidad inversa descrita entre el valor mínimo de filtro de supresión de ruido y el valor de ganancia puede ser beneficiosa cuando se aplica el valor de ganancia a la señal de audio. Por ejemplo, cuando se proporciona un valor grande de ganancia, por consiguiente se amplificará un componente de ruido de la señal de audio sometida al valor de ganancia. Por lo tanto, la reducción del valor mínimo de filtro de supresión de ruido proporcional al valor de ganancia puede conducir a una supresión de ruido, total, constante, lograda por la realización preferida.
[0016] En una realización adicional preferida, el analizador de señal de audio se configura para calcular el valor mínimo de filtro de supresión de ruido usando una decisión mínima en un valor predeterminado de supresión de ruido y un cociente de un valor predeterminado de supresión de ruido y el valor de ganancia. El uso de una decisión mínima como se describe anteriormente puede ser beneficioso para lograr una experiencia confortable de comprensión auditiva, como por ejemplo, cuando se proporcionan valores pequeños de ganancia, es grande el cociente del valor predeterminado de supresión de ruido y valor de ganancia. Por lo tanto, una reducción de ruido en base a este cociente puede dar como resultado que se reduzca una cantidad insuficiente de ruido, mientras que en la realización preferida descrita, se asegura una supresión mínima de ruido. De este modo, se puede proporcionar una experiencia confortable de comprensión auditiva, puesto que el ruido se reduce al menos a una cantidad predeterminada, deseada.
[0017] En una realización adicional preferida, el analizador de señal de audio se configura para determinar el valor mínimo de filtro de supresión de ruido según una primera decisión mínima, la primera decisión mínima que es dependiente de un valor predeterminado de supresión de ruido y un resultado de una segunda decisión mínima. El resultado de la segunda decisión mínima es dependiente de una inversa del valor de ganancia y un resultado de una decisión máxima. El resultado de la decisión máxima es dependiente de la inversa de un valor límite de distorsión predeterminado y un cociente del valor predeterminado de supresión de ruido y el valor de ganancia. La configuración descrita del analizador de señal de audio puede ser beneficiosa a fin de reducir los artefactos de reducción de ruido, tal como por ejemplo distorsiones de voz debidas a supresión agresiva de ruido. En particular, valores grandes de ganancia pueden conducir a un cociente pequeño de valor predeterminado de supresión de ruido y valor de ganancia, dando como resultado de forma potencial valores cercanos a 0 y, por lo tanto, provocar de forma potencial distorsiones de señal cuando se aplican como valor mínimo de supresión de ruido. El empleo de un límite inferior como se describe en la realización preferida, realizado por la decisión máxima comprendida al estimar el valor mínimo de filtro de supresión de ruido, evita esta posibilidad, permitiendo una experiencia potencialmente más confortable de comprensión auditiva.
[0018] En una realización adicional preferida, el analizador de señal de audio se configura para determinar el valor mínimo de filtro de supresión de ruido de modo que el mismo es igual a un valor predeterminado de supresión de ruido, cuando el valor de ganancia está entre 0 y 1, o el mismo es igual a un cociente del valor predeterminado de supresión de ruido y el valor de ganancia, cuando el valor de ganancia es mayor de 1. La configuración descrita para el analizador de señal de audio es ventajosa a fin de proporcionar un valor mínimo, flexible de filtro de supresión de ruido, dependiente del valor de ganancia, de modo que un valor grande de ganancia no reducirá la reducción realizable de ruido.
[0019] En una realización adicional preferida, el analizador de señal de audio se configura para determinar el valor mínimo de filtro de supresión de ruido de modo que sea igual a un valor predeterminado de supresión de ruido cuando el valor de ganancia está entre 0 y 1. De otro modo, el valor mínimo de filtro de supresión de ruido es igual a un cociente del valor predeterminado de supresión de ruido y el valor de ganancia cuando el valor de ganancia está entre 1 y el producto del valor predeterminado de supresión de ruido y un límite predeterminado de distorsión. De otro modo, el valor mínimo de filtro de supresión de ruido es igual un valor inverso del límite predeterminado de distorsión cuando el valor de ganancia es mayor que un producto del valor predeterminado de supresión de ruido y el límite predeterminado de distorsión y más pequeño que el límite predeterminado de distorsión. De otro modo, el valor mínimo de filtro de supresión de ruido es igual a un valor inverso del valor de ganancia cuando el valor de ganancia es mayor que el límite predeterminado de distorsión. Un analizador de señal de audio configurado como se describe anteriormente es beneficioso al evitar distorsión de voz o tonos musicales al proporcionar un mayor valor mínimo de filtro de supresión de ruido, para mayores valores de ganancia, evitando de este modo supresión agresiva de ruido.
[0020] En una realización adicional preferida, el analizador de señal de audio se configura para analizar una banda de la pluralidad de bandas de la señal de audio para determinar si la banda tiene una primera característica de la señal de audio o una segunda característica de la señal de audio, donde la primera característica es diferente de la segunda característica. Adicionalmente, el analizador de señal de audio se configura para determinar los valores de filtro de supresión de ruido cuando se ha determinado una segunda característica para la banda, de modo que los valores de filtro de supresión de ruido son iguales a un producto de un valor predeterminado de supresión de ruido y el valor de ganancia, cuando el valor de ganancia está entre 0 y 1. De otro modo, los valores del filtro de supresión de ruido son iguales al valor predeterminado de supresión de ruido cuando el valor de ganancia está entre 1 y el producto del valor predeterminado de supresión de ruido y un límite predeterminado de distorsión. De otro modo, los valores del filtro de supresión de ruido son iguales al cociente del valor de ganancia y al límite predeterminado de distorsión cuando el valor de ganancia es mayor que el producto del valor predeterminado de supresión de ruido y el límite predeterminado de distorsión, y más pequeño que el límite predeterminado de distorsión. De otro modo, los valores del filtro de supresión de ruido son iguales a uno cuando el valor de ganancia es mayor que el límite predeterminado de distorsión. Un analizador de señal de audio como se describe anteriormente puede ser beneficioso para proporcionar valores de filtro de supresión de ruido en escenarios cuando, por ejemplo, la segunda característica describe un contenido de ruido de la señal de audio. La segunda característica puede ser una banda o intervalo no activo, como por ejemplo, una actividad de voz indica que no está presente voz en el intervalo o la banda. En el escenario de ruido descrito, la respuesta total de sistema no da como resultado una amplificación del ruido.
[0021] En una realización adicional preferida, el analizador de señal de audio se configura para calcular una primera trama de la señal de audio, un primer valor de ganancia que da como resultado un primer valor mínimo de supresión de ruido. Adicionalmente, el analizador de señal de audio se configura para calcular, para una segunda trama de la señal de audio, un segundo valor de ganancia que da como resultado un segundo valor mínimo, no suavizado de filtro de supresión de ruido, donde el segundo intervalo sigue al primer intervalo en tiempo. Adicionalmente, el analizador de señal de audio se configura para calcular un valor mínimo suavizado de filtro de supresión de ruido para el segundo intervalo usando el segundo valor mínimo no suavizado de filtro de supresión de ruido y el primer valor mínimo de filtro de supresión de ruido. Un analizador de señal de audio configurado como se describe anteriormente puede ser beneficioso para evitar grandes fluctuaciones en el valor mínimo de filtro de supresión de ruido, proporcionando de este modo un nivel de ruido residual suavizado evitando un efecto inconfortable de bombeo de ruido.
[0022] En una realización adicional preferida, el aparato comprende un primer convertidor tiempo-frecuencia que proporciona una representación en el dominio de frecuencia de la señal de audio que proporciona la pluralidad de bandas de la señal de audio. Además, el analizador de señal de audio se configura para calcular un valor de filtro de supresión de ruido para una banda de la pluralidad de bandas de la señal de audio con base en una o más bandas de la pluralidad de bandas de la señal de audio y el valor mínimo de supresión de ruido. Adicionalmente, el valor mínimo de filtro de supresión de ruido se basa en un valor predeterminado de supresión de ruido que es igual para cada banda de la pluralidad de bandas de la señal de audio, o un límite predeterminado de distorsión que es igual para una pluralidad de bandas de la señal de audio, y un valor derivado de la característica de la señal de audio, el valor que es igual para cada banda de la pluralidad de bandas de la señal de audio. El valor derivado de la característica de la señal de audio puede ser, por ejemplo, un valor de ganancia. Adicionalmente, un aparato como se describe anteriormente puede ser beneficioso al proporcionar una resolución espectral flexible en base al primer convertidor de tiempo-frecuencia, permitiendo de este modo el tratamiento individual para cada banda de la pluralidad de bandas de la señal de audio.
[0023] En una realización adicional preferida, el filtro se configura para modificar cada banda de la pluralidad de bandas de la señal de audio al aplicar los valores del filtro de supresión de ruido para la banda, para obtener una segunda pluralidad de bandas. Adicionalmente, el aparato comprende un segundo convertidor de tiempo-frecuencia que se configura para proporcionar una señal de salida en el dominio de tiempo a partir de la segunda pluralidad de bandas. Un aparato como se describe anteriormente puede ser beneficioso en la producción de una señal de audio audible en la salida derivada de la segunda pluralidad de banda.
[0024] En una realización adicional preferida, el aparato comprende un segundo convertidor tiempofrecuencia, que se configura para proporcionar una transformación en el dominio de tiempo de los valores de filtro de supresión de ruido, proporcionados por el analizador de señal de audio. Adicionalmente, el filtro se configura para proporcionar una señal de audio de salida, obtenida al convolucionar los valores del filtro de supresión de ruido transformados en el dominio de tiempo, y la señal de audio. Un aparato como se describe anteriormente es ventajoso para obtener un sistema de poco retraso que opera cerca al tiempo real, puesto que no es necesario para la filtración ningún retraso debido a un procesamiento a base de intervalos.
[0025] En una realización adicional preferida, el analizador de señal de audio se configura para calcular una información de amplitud de la señal de audio. Además, el analizador de señal de audio se configura para calcular un valor de ganancia, como una característica (valor derivado de) la señal de audio, en base a la información de amplitud (característica de la señal de audio) y un valor diana predeterminado, al cual se ajusta la señal de audio por medio del valor de ganancia. El valor de ganancia proporcionado se puede ampliar de manera beneficiosa, por ejemplo, para amplificar o atenuar la señal a un valor diana, debido a por ejemplo la energía variable de un componente deseado de señal en la señal de audio.
[0026] En una realización adicional, el analizador de señal de audio se configura para filtrar la señal de audio con un filtro psicoacústico antes del cálculo de la información de amplitud. Adicionalmente, el filtro psicoacústico se configura para exhibir un primer valor de atenuación para un primer intervalo de frecuencia, y un segundo valor de atenuación para un segundo intervalo de frecuencia, y un tercer valor de atenuación para un tercer intervalo de frecuencia. Adicionalmente, el filtro se configura de modo que el segundo intervalo de frecuencia está entre el primer intervalo de frecuencia y el tercer intervalo de frecuencia. El primer intervalo de frecuencia, el segundo intervalo de frecuencia y el tercer intervalo de frecuencia se pueden configurar para no solaparse. Adicionalmente, el filtro se configura de modo que el segundo valor de atenuación es más pequeño que el primer valor de atenuación y el tercer valor de atenuación. Un cálculo de la información de amplitud depende de un filtro psicoacústico, como se describe anteriormente, puede ser beneficioso para proporcionar un cálculo subjetivamente más adecuado del valor de ganancia en base a la información de amplitud. Un valor de ganancia calculado en base a una medida psicoacústica, por ejemplo, dB(A), dB(B) o dB(C), puede conducir a una experiencia más confortable de comprensión auditiva cuando se aplica a la señal de audio.
[0027] En una realización adicional preferida, el analizador de señal de audio comprende una unidad de detección de actividad de voz que proporciona una primera información de actividad de voz de la primera trama de la señal de audio, y una segunda información de actividad de voz de la segunda trama de la señal de audio, y una unidad de memoria para almacenar un valor previo de ganancia. Adicionalmente, el analizador de señal de audio se configura para estimar un valor de ganancia en base a una segunda trama de la señal de audio en la cual se ha detectado voz de acuerdo a la segunda información de actividad de voz. De manera alternativa, el analizador de señal de audio se configura para mantener un valor de ganancia de una primera trama si no se ha detectado actividad de voz en la segunda trama de acuerdo a la segunda información de actividad de voz, cuando se ha detectado voz en la primera trama en base a la primera información de actividad de voz, donde la segunda trama sigue a la primera trama en el tiempo. Un aparato como se describe anteriormente puede ser ventajoso al evitar el cómputo del valor de ganancia en segmentos de una señal de audio cuando no está presente la señal de interés, evitando de este modo, por ejemplo, la amplificación de componentes no deseados de señal.
[0028] En una realización preferida, el analizador de señal de audio se configura para calcular el valor mínimo de supresión de ruido para una trama actual en base a un valor derivado de una característica de la señal de audio calculada para una trama actual. Adicionalmente, el analizador de señal de audio se configura para analizar la señal de audio para determinar el valor derivado de una característica de la señal de audio. Adicionalmente, el filtro comprende una primera etapa de filtro y una segunda etapa de filtro, donde la primera etapa de filtro se ajusta usando el valor derivado de la característica de la señal de audio (por ejemplo, un valor de ganancia). Además, la segunda etapa de filtro se ajusta de acuerdo a los valores de filtro de supresión de ruido. La realización preferida descrita permite una estructura de filtro flexible, como por ejemplo, la primera etapa puede seguir a la segunda etapa puesto que no son dependientes entre sí.
[0029] En una realización adicional preferida, el analizador de señal de audio se configura para calcular un valor mínimo de supresión de ruido para una segunda trama en base a un valor derivado de la característica de la señal de audio, calculada para una primera trama. Adicionalmente, el filtro comprende una primera etapa de filtro y una segunda etapa de filtro, donde la primera etapa de filtro se ajusta de acuerdo a los valores de filtro de supresión de ruido y donde una segunda etapa de filtro se ajusta usando el valor derivado de la característica de la señal de audio. Adicionalmente, el analizador de señal de audio se configura para analizar una salida de la primera etapa de filtro para determinar el valor derivado de una característica de la señal de audio, donde la segunda trama sigue a la primera trama en el tiempo. Un analizador de señal de audio, configurado como se describe anteriormente, es beneficioso para permitir una filtración flexible y de poco retraso de la señal de audio, puesto que se puede emplear un valor previamente computado de ganancia.
[0030] En una realización adicional preferida, el analizador de señal de audio se configura para determinar el valor de ganancia en base a una información de actividad de voz y la señal de audio. De manera alternativa, un analizador de señal de audio se configura para determinar el valor de ganancia en base a una información de actividad de voz y la señal de audio después de que se filtra por los valores de filtro de supresión de ruido. Adicionalmente, el analizador de señal de audio se configura para obtener la información de actividad de voz en base a la señal de audio. Adicionalmente, el analizador de señal de audio se configura para obtener la información de actividad de voz en base a la señal de audio después de que se filtra por el filtro. De manera alternativa, el analizador de señal de audio se configura de modo que una información de actividad de voz que indica que no está presente voz, se usa para disminuir el valor de ganancia. Un analizador de señal de audio como se describe anteriormente ofrece flexibilidad en términos de qué señal se usa para el cálculo de ganancia o qué señal se usa para la detección de actividad de voz y evita la amplificación de ruido al disminuir el valor de ganancia durante pausas de voz o incluso no aplicando ganancia durante las pausas de voz.
[0031] Las realizaciones de la presente invención proporcionan un procedimiento para procesar una señal de audio, comprendiendo el procedimiento: analizar una señal de audio para determinar una pluralidad de valores de filtro de supresión de ruido para una pluralidad de bandas de la señal de audio, determinar los valores de filtro de supresión de ruido de modo que un valor de filtro de supresión de ruido es mayor que o igual a un valor mínimo de filtro de supresión de ruido, y de modo que el valor mínimo de filtro de supresión de ruido depende de una característica de la señal de audio; y filtrar la señal de audio en base a los valores de filtro de supresión de ruido. El procedimiento descrito es ventajoso, por ejemplo, cuando la característica de la señal de audio se usa para estimar un valor de ganancia que se puede aplicar a la señal de audio. Adicionalmente, un filtro de supresión de ruido flexible se puede ajustar a este valor por la elección adecuada de los valores necesarios de filtro de supresión de ruido en dependencia del valor de ganancia. De este modo, se puede evitar la amplificación de un componente no deseado de señal y se puede lograr una preservación o mejora de un componente deseado, permitiendo una experiencia confortable de comprensión auditiva.
[0032] Una realización adicional preferida incluye un programa informático con un código de programa para realizar el procedimiento cuando el programa informático se ejecuta en un ordenador o un microcontrolador.
[0033] Adicionalmente, los aspectos se refieren a un aparato para analizar una señal de audio para determinar valores de filtro de supresión de ruido, donde un valor mínimo de filtro de supresión depende de una característica de la señal de audio, y la filtración de la señal de audio en base a los valores de filtro de supresión de ruido.
[0034] Adicionalmente, las realizaciones de la invención se refieren a aparatos y procedimientos para la reducción de ruido y control automático de ganancia, en conjunto, que proporciona el medio para controlar automáticamente el nivel de señal de voz en una señal de salida, al mismo tiempo que previene la amplificación arbitraria o fluctuaciones rápidas de un nivel de ruido. Las realizaciones adicionales de la invención describen aparatos y procedimientos que incluyen un mecanismo de control para mitigar distorsiones de señal para valores grandes de ganancia, por ejemplo ganancias de AGC (= control automático de ganancia). Además, una realización de la invención se refiere a la realización conjunta de NR (= reducción de ruido) y AGC. Un aspecto adicional de la invención es proporcionar un mecanismo de control automático de ganancia para un componente deseado de voz, al mismo tiempo que previene la amplificación arbitraria y fluctuaciones no deseadas de un nivel de ruido.
[0035] Adicionalmente, los aspectos de la presente invención se refieren al campo de procesamiento de señales de audio, de manera más específica a un planteamiento para ajustar automáticamente el nivel de una señal de audio, por ejemplo, una señal de audio que contiene algunos componentes deseados de voz, así como algunos componentes no deseados de ruido.
[0036] Adicionalmente, los aspectos de la invención se refieren a una realización para la reducción de ruido y control automático de ganancia en conjunto que proporciona el medio para controlar automáticamente el nivel de señal de voz en una señal de salida, al mismo tiempo que previene la amplificación arbitraria o fluctuaciones rápidas del nivel de ruido. Los aspectos de la invención incluyen además un mecanismo de control para mitigar distorsiones de señal para ganancias grandes de AGC.
Breve descripción de las figuras
[0037] En lo sucesivo, se explicarán realizaciones de la presente invención con referencia a las figuras anexas, en las cuales:
La figura 1 muestra un diagrama de bloques de una realización según la invención;
La figura 2 muestra un diagrama de bloques de un analizador de señal de audio de la realización del aparato según la figura 1;
La figura 3 muestra un diagrama de bloques de una realización de un aparato según la invención;
La figura 4 muestra un diagrama de bloques de una realización de un aparato según la invención;
La figura 5 muestra un diagrama de bloques de la etapa de selección de valor de filtro del analizador de señal de audio según la figura 2;
La figura 6 muestra un diagrama de bloques de la etapa de selección del valor de filtro del analizador de señal de audio según la figura 2;
La figura 7 muestra un diagrama de bloques de la etapa de selección de valor del filtro del analizador de señal de audio según la figura 2;
La figura 8 muestra un diagrama de bloques de una realización preferida según la invención;
La figura 9 muestra un diagrama de bloques de una realización preferida según la invención;
La figura 10 muestra un diagrama de una respuesta total de sistema;
La figura 11 muestra un diagrama del valor mínimo de filtro de supresión de ruido en dependencia de un valor de ganancia;
La figura 12 muestra gráficas de una señal antes y después del procesamiento de señal;
La figura 13 muestra un diagrama de bloques de un escenario de comunicación de voz dúplex completo;
La figura 14 muestra un diagrama de bloques del receptor o el lado de transmisor de un escenario de comunicación de voz dúplex completo;
La figura 15 muestra un diagrama de bloques según un aspecto de la invención;
La figura 16 muestra un diagrama de bloques según un aspecto de la invención;
La figura 17 muestra un diagrama de bloques según un aspecto de la invención;
La figura 18 muestra un diagrama de bloques según una realización preferida según la invención; y
La figura 19 muestra un diagrama de bloques según una realización preferida según la invención.
Descripción detallada de las realizaciones
[0038] La figura 1 representa un diagrama de bloques de un aparato 100 según una realización de la invención para procesar una señal de audio 110, donde la señal de audio 110 se puede proporcionar en una representación espectral, con un filtro 120 ajustado según los valores de filtro de supresión de ruido proporcionados por un analizador de señal de audio 130. Los valores de filtro de supresión de ruido se determinan 130a en el analizador de señal de audio, de modo que son mayores que un valor mínimo de filtro de supresión de ruido 130b'. El valor mínimo de filtro de supresión de ruido 130b' se determina en 130b en base a una característica de la señal de audio 130c' que se determina en el analizador de señal de audio 130 en 130c. Además, la estimación se basa en valores no restringidos de filtro de supresión de ruido 130d' que se estiman en 130d' para una pluralidad de bandas de la señal de audio. Adicionalmente, la característica de la señal de audio 130c' es igual para una pluralidad de bandas de la señal de audio. Los valores no restringidos de filtro de supresión de ruido 130d' se pueden estimar, por ejemplo, según un filtro óptimo tal como un filtro Wiener, en base a la densidad espectral de potencia ' de la señal de audio 110, por ejemplo, la señal de audio de entrada y la PSD del ruido 5 n W contenido en la señal de audio 110.
Figure imgf000008_0001
donde por ejemplo, m es el índice de trama de tiempo y k es el índice de sub-banda espectral. El filtro Wiener -yRWieLie-L-C"-' ■') extrae una señal deseada de una señal ruidosa, computada como se describe anteriormente. En la práctica, las PSD tienen que ser estimadas para un filtro Wiener.
[0039] Se puede obtener una señal mejorada en el dominio de frecuencia al multiplicar la pluralidad de bandas de la señal de audio, por ejemplo, un espectro de entrada, con el filtro anterior, ^NlR.WienerC™' por ejemplo, en una base trama por trama.
[0040] Al observar que la SNR se puede definir como
Figure imgf000008_0002
la ecuación para el filtro Wiener 'Hm b .w ídubr(m,k) se puede reformular como
H , N R .W ie n e r ' l - * ) = 1 5NR(m. k)
[0041] Por lo tanto, el filtro Wiener ^NR.WienerC™' toma el valor cero para íf (m , k ) = O y converge a uno para valores grandes de SNR, que es el comportamiento deseado para atenuar el ruido al mismo tiempo que se preservan los componentes deseados de señal. De manera alternativa, se pueden usar filtros de diferentes tipos tales como el estimador de amplitud espectral [4] para estimar los valores no restringidos de filtro de supresión de ruido. Adicionalmente, los valores no restringidos de filtro de supresión de ruido se pueden basar en una función heurística.
[0042] La señal de audio 100 puede comprender un componente deseado, por ejemplo, voz, y algún componente no deseado, por ejemplo, ruido de fondo. El filtro 120 se ajusta por el analizador de señal 130, de modo que, por ejemplo, un componente de señal de voz de la señal de audio 110 será más inteligible después de la filtración de la señal de audio 110 con el filtro 120. Además, un componente no deseado de la señal de audio 110 se puede suprimir después de filtrar la señal de audio 110 con el filtro 120. Un valor mínimo de filtro de supresión de ruido, que actúa como una restricción en los valores no restringidos de filtro de supresión de ruido, permite una mejora de la señal y evita la distorsión de voz o tonos musicales.
El aparato 100 facilita la mejora de un componente deseado de señal de una señal de audio 110, al mismo tiempo que ofrece una compensación entre la mejora de señal y la supresión de ruido. Esta compensación se caracteriza por el valor mínimo de filtro de supresión de ruido que actúa como una restricción, puesto que se puede ajustar para eliminar más componentes no deseados de señal o reducir la eliminación de los componentes no deseados de señal a fin de evitar distorsiones de señal.
[0043] La figura 2 muestra un diagrama de bloques del analizador de señal de audio 130 de una realización de la invención según el aparato 100 como se representa en la figura 1. El analizador de señal de audio 130 realiza una estimación de valor no restringido de filtro de supresión de ruido 210, en base a una pluralidad de bandas de la señal de audio 215. Para cada banda de la pluralidad de bandas de la señal de audio 215, un valor no restringido de filtro de supresión de ruido 220 se estima en el analizador de señal de audio 130. Además, una estimación de valor mínimo de supresión de ruido 230 se realiza, en base a un valor derivado de una característica de la señal de audio 232 (por ejemplo, un valor de ganancia) y un valor predeterminado de supresión de ruido 234. Los valores no restringidos de filtro de supresión de ruido 220 y el valor mínimo de filtro de supresión de ruido 240 se usan para determinar los valores de filtro de supresión de ruido 250. Esto se puede hacer, por ejemplo, al realizar una operación máxima, se obtienen una pluralidad de valores de filtro de supresión de ruido 260 para una pluralidad de bandas de la señal de audio 215. Los valores de filtro de supresión de ruido 260 que se obtienen por la operación máxima 250 se asegura que sean mayores que el valor mínimo de filtro de supresión de ruido 240, por lo que valores pequeños o valores iguales a 0 de los valores de filtro de supresión de ruido se pueden evitar. Al evitar valores pequeños o valores iguales a 0 de los valores de filtro de supresión de ruido 260, la supresión realizable de ruido se limita por el valor mínimo de filtro de supresión de ruido 240, evitando una distorsión potencial debido a supresión agresiva de ruido.
[0044] La figura 3 muestra un diagrama de bloques de un aparato 300 según una realización preferida de la invención. El aparato 300 comprende un analizador de señal de audio 130 y un filtro 310. Adicionalmente, el aparato 300 comprende un primer convertidor de tiempo-frecuencia 320a y un segundo convertidor de tiempo-frecuencia 320b. Además, el aparato 300 permite la aplicación de un valor de ganancia a la señal de audio 110 antes o después de que se filtre la señal de audio 110 con el filtro 310. Esta opcionalidad se indica por los conmutadores 330a y 330b. Además, el aparato 300 comprende otro conmutador 330c, que permite calcular un valor derivado de una característica de la señal de audio 110 (por ejemplo, un valor de ganancia), antes o después de filtrar la señal de audio 110 con el filtro 310. Adicionalmente, el analizador de señal de audio 130 comprende una detección de actividad de voz 340, un filtro psicoacústico 342 y una unidad de memoria 346. Dependiendo del resultado de la detección de actividad de voz 340, una característica de la señal de audio 348a, por ejemplo una información de amplitud, se computa 348 en base a la señal de audio 110 filtrada por el filtro psicoacústico 342, cuando se ha detectado voz.
[0045] Adicionalmente, cuando se ha detectado voz por la detección de actividad de voz 340, un nuevo valor de ganancia se computa 350 en base a la información de amplitud 348a y un valor diana.
[0046] Adicionalmente, un conmutador 352 permite el uso de un valor de ganancia antiguo, mantenido en la unidad de memoria 346, cuando no se ha detectado voz por la detección de actividad de voz 340. En contraste, cuando se ha detectado voz por la detección de actividad de voz 340, el valor de ganancia antiguo en la memoria 346 se sobrescribirá por el valor de ganancia de la trama actual 350a.
[0047] Además, el analizador de señal de audio 130 se configura para computar valores no restringidos de filtro de supresión de ruido 356, en base a una pluralidad de bandas de la señal de audio 354, por ejemplo en base a un filtro Wiener. Además, el analizador de señal de audio 130 se configura para estimar un valor mínimo de filtro de supresión de ruido 358, que se basa en un valor predeterminado de supresión de ruido gdes 234, por ejemplo un límite de atenuación de ruido g^ m, o un límite predeterminado de distorsión 358a y un valor derivado de una característica de la señal de audio, por ejemplo el valor de ganancia. Si no se ha detectado actividad de voz por detección de actividad de voz 340, en la trama actual, la estimación de valor mínimo de filtro de supresión de ruido 358 puede depender de la computación del valor mínimo de supresión de ruido 358c en un valor de ganancia que está almacenado en la unidad de memoria 346. Si la voz está activa en la trama actual, el valor de ganancia actual se puede emplear para la estimación de valor mínimo de supresión de ruido 358, la elección entre el valor de ganancia, antiguo y nuevo, se facilita por un conmutador 358b.
[0048] El valor mínimo de filtro de supresión de ruido 358c, obtenido en la estimación de valor mínimo de filtro de supresión de ruido 358, se puede someter a un suavizado opcional 360. El valor mínimo de filtro de supresión de ruido 360a suavizado o no suavizado, que es igual para una pluralidad de bandas de la señal de audio 354, y una pluralidad de valores no restringidos de filtro de supresión de ruido 356a, obtenido por la estimación de valor no restringido de filtro de supresión de ruido 356, se someten a una operación máxima 362. La operación máxima 362 proporciona valores de filtro de supresión de ruido 364, para una pluralidad de bandas de la señal de audio 354, para ajustar el filtro 310.
[0049] En su forma más simple, se aplica un valor mínimo constante de supresión de ruido. El filtro Wiener Hnr, Wiener(m,k) toma el valor de cero para SNR(m,k) = 0, y converge a uno para valores grandes de SNR, que es el comportamiento deseado para atenuar los componentes no deseados de señal, por ejemplo, ruido, al mismo tiempo que preserva los componentes deseados de señal, por ejemplo, voz, de la señal de audio. Un valor mínimo constante de filtro de supresión de ruido glm = gdes se puede emplear para evitar reducción agresiva de ruido. Por lo tanto, los valores de filtro de supresión de ruido se limitan a una cantidad de atenuación máxima de ruido del siguiente modo:
Figure imgf000010_0001
descrito aquí para los valores no restringidos de filtro de supresión de ruido basado en filtro Wiener -'), pero por consiguiente se puede aplicar también a valores no restringidos de filtro de supresión de ruido, obtenidos de forma diferente El límite de atenuación de ruido gn¡m se define como 0 — 5]im — 1 . Corresponde a la atenuación máxima de ruido del filtro ^NR.WienerC™' , que también se puede interpretar como la cantidad deseada de atenuación de ruido durante pausas de voz, es decir, £7lLm = S des. Típicamente se elige entre -20dB y -10dB. Puesto que también se pueden emplear otras reglas de filtración en lugar del filtro Wiener, la ecuación descrita anteriormente se puede generalizar del siguiente modo:
í7NR(m , fe) = m a x [ % ( m , f e ) ¡ g d^ } ,
donde ^ n r O11' k ) se ref¡ere a valores no restringidos, arbitrarios de filtro de supresión de ruido, en base a una regla de reducción arbitraria de ruido.
[0050] El filtro 310 aplica a cada banda de la señal de audio 354a-d a un valor apropiado de los valores de filtro de supresión de ruido 364a-d. Al filtrar la pluralidad de bandas de la señal de audio 354 con el filtro 310, se obtiene una segunda pluralidad de bandas 366. La segunda pluralidad de bandas 366 se puede transformar en el dominio de tiempo con el segundo convertidor de tiempo-frecuencia 320b, de modo que se obtiene una señal audible.
[0051] Además, la multiplicación con un valor de ganancia antes o después de la filtración de la señal de audio 110, indicada con los conmutadores 330a y 330b, permite que el aparato 300 compense un bajo nivel de un componente deseado de señal en la señal de audio 110. Adicionalmente, el aparato 300 proporciona por la filtración la señal de audio 110 en el dominio de frecuencia con el filtro 310, un ahorro de potencia debido a la operación en el dominio de frecuencia en comparación a una convolución basada en el dominio de tiempo.
[0052] Para un valor dado de ganancia ^AGc(m ) , como un valor derivado de una característica de la señal de audio 110, la tarea de unión NR+AGC se considera como un problema de filtración donde la señal deseada ya no es el componente deseado de señal de la señal de audio 110, por ejemplo una señal de voz, en sí misma, pero el componente deseado de señal en escala por la ganancia de AGC. La derivación por ejemplo del filtro Wiener que extrae el componente deseado de señal, en escala, por ejemplo una señal de voz, de una señal ruidosa de entrada, se obtendrá la siguiente regla de filtración:
Figure imgf000010_0003
. fe)
Figure imgf000010_0002
(ffl, fe)
1 XR-AGC W i e n e r (m , fe) JAGC (™ )
<j£ (m , fe]
que se puede reformular como función del filtro Wiener HNR,Wiener(m,k), como se describe anteriormente para la reducción de ruido:
H, N R -A G C W ie n e r (m , fe)
Figure imgf000010_0004
donde GAgc(m) es un valor de ganancia, por ejemplo un factor de escala de AGC.
[0053] Como se describe anteriormente, un límite de atenuación de ruido glim = gdes para limitar la distorsión de la señal se introduce:
í 'NR-AGC.W ienertm '
Figure imgf000011_0001
des }
GAGC(m ) : á íE3 }
3 Jes
x G,U t O™}
Figure imgf000011_0002
^AGc(™ )
[0054] Por lo tanto, de la inspección de GNR+A 9 C,W¡ener(m,^ ), es visible que la realización de NR y AGC de forma conjunta es equivalente a aplicar el factor de escala de AGC GA 9 C(m) en la salida de un filtro Wiener (o equivalentemente en su entrada), sometido a un valor mínimo de supresión de ruido, por ejemplo, un límite de atenuación de ruido, que es proporcional a la ganancia de AGC.
[0055] Además, la ecuación descrita anteriormente para ^ nr- a g c w í enerC™- fe) se pUede generalizar a reglas de filtración heurística u óptima arbitrarias, produciendo
^ N R A G C '-.m J fe) — ^ N R ^ j f e j ^ A G c ) * ^ A G c ím ) -donde
Figure imgf000011_0003
[0056] Además, el valor mínimo de supresión de ruido y por lo tanto los valores de filtro de supresión de ruido se pueden estimar al realizar el procesamiento de AGC y NR de una manera conjunta puesto que esto permite mejor control del nivel de un componente deseado de señal de la señal de audio 110, por ejemplo voz, niveles de ruido a la salida. Se aprovecha una A VAD(=Detección de Actividad de Voz) para activar las etapas de computación de ganancia y estimación de nivel, pero la multiplicación de la señal de salida de NR con la ganancia de AGC se lleva a cabo para cada intervalo, a pesar de la actividad de voz. Según un aspecto de la invención, la filtración no depende de un valor mínimo fijo de supresión de ruido, por ejemplo, un límite fijo de atenuación de ruido. En contraste, un valor derivado de una característica de la señal de audio 110, por ejemplo, una ganancia de AGC, depende (y por lo tanto por ejemplo variable en tiempo) del valor mínimo de filtro de supresión de ruido, por ejemplo, límite de
atenuación de ruido
Figure imgf000011_0004
se aplica, produciendo el filtro de NR
Figure imgf000011_0005
donde ]im| n
Figure imgf000011_0006
se adapta en una base de intervalo por intervalo como función de la atenuación deseada de ruido 3 des 8des — *3 y la ganancia de AGC. El superíndice [UC] se refiere al caso no restringido, en contraste con el caso restringido presentado posteriormente.
[0057] Según un aspecto de la invención, el valor mínimo de filtro de supresión de ruido, dependiente del
valor de ganancia, por ejemplo, tener un límite de
Figure imgf000011_0007
atenuación de ruido se puede obtener según 3 des /
. Según un aspecto adicional, el valor mínimo de supresión de ruido, por ejemplo, un límite de atenuación no restringida de ruido, se define de una manera diferente para obtener una mejor atenuación del ruido cuando el AGC atenúa la señal (es decir, ^Acc(m ) < 1 );
£ ] (jn ; Gacc)
Figure imgf000011_0008
[0058] La ganancia de AGC no se usa para mover en escala las ganancias de NR como una función de la ganancia de AGC. En cambio, la ganancia de AGC se incluye directamente en el diseño de filtro de NR
mediante el valor mínimo de filtro de supresión de ruido
Figure imgf000012_0001
por ejemplo, el límite de atenuación de ruido.
[0059] Para ilustrar la ventaja de usar el límite de atenuación de ruido variable
Figure imgf000012_0002
en lugar de un límite fijo glim = gdes, la respuesta del filtro total
Figure imgf000012_0003
se deriva para regiones de tiempo-frecuencia dominadas ya sea por la voz (SNR alta) o por el ruido (SNR baja):
- Caso ¿'AGcfwO ^ 1
- En las regiones de tiempo-frecuencia de baja SNR dominadas por el ruido, se puede asumir que el filtro de NR
Figure imgf000012_0004
y por lo tanto, la respuesta total de sistema
Figure imgf000012_0005
que muestra que los segmentos dominados por el ruido se mueven en escala por la cantidad deseada de reducción de ruido, a pesar de la ganancia de AGC.
- En las regiones de tiempo-frecuencia de alta SNR dominadas por la voz, se puede asumir que el filtro de NR r- [u ó] / , c 'l
deja la voz principalmente sin cambio, por ejemplo l,nr '-'“ j k > “ ageJ y por lo tanto la respuesta total llega a ser:
Figure imgf000012_0006
que muestra que los segmentos dominados por la voz se mueven en escala por la ganancia de AGC como se desea, a pesar de la cantidad deseada de reducción de ruido.
- Caso ¿'AGcfwO < 1
Usando el mismo razonamiento como antes, se puede escribir
Figure imgf000012_0007
que muestra que los segmentos de voz se mueven en escala por la ganancia de AGC ^AGc(m l como se espera, y el ruido se atenúa al menos por la cantidad deseada de atenuación de ruido Sde-s.
[0060] Por lo tanto, es visible que la adaptación del límite de atenuación de ruido como una función de la atenuación deseada de ruido y la ganancia de AGC según
Figure imgf000012_0008
proporciona control completo sobre los niveles de voz y ruido a la salida del sistema para ganancias positivas de AGC. Por lo tanto, se pueden lograr niveles consistentes de voz y ruido y se pueden evitar efectos de bombeo de ruido, como se representa en la gráfica 1250.
[0061] Cuando el AGC atenúa la señal de entrada, es decir Gac c (™ ) < 1 , se ve a partir de
Figure imgf000013_0001
que el ruido no se amplifica a la salida en comparación a la entrada, y se asegura una cantidad mínima de atenuación de ruido. En este caso, se señala que esto introduce un ruido de fondo de bajo nivel pero variable en tiempo provocado por la atenuación de AGC variable en tiempo. Sin embargo, se puede asumir en la práctica que el nivel de voz de entrada permanece relativamente constante. Con la condición de que el VAD pueda detectar la presencia de voz de manera exacta, la ganancia de AGC por lo tanto fluctuará solo lentamente después de la convergencia, y el nivel absoluto de ruido a la salida del sistema variará solo lentamente, lo que evita el efecto de bombeo de ruido.
[0062] Como se presenta anteriormente, el valor mínimo de filtro de supresión de ruido 360a se deriva como una función de la atenuación deseada de ruido y la ganancia de AGC. Esto se puede lograr, por ejemplo en base a
Figure imgf000013_0002
[0063] Esta estrategia puede producir un límite de atenuación de ruido arbitrariamente pequeño para grandes ganancias de AGC ^ a c c C™). Cuando se aplica reducción agresiva de ruido pueden presentarse artefactos audibles en la práctica. Los artefactos habituales que se presentan son:
- distorsiones de voz, especialmente a altas frecuencias donde la voz es la más débil,
- tonos musicales caracterizados por una coloración altamente no estacionaria del ruido de fondo.
[0064] Para obtener una reducción menos agresiva de ruido, es decir, una reducción moderada de ruido, para grandes ganancias de AGC y por lo tanto para mitigar los artefactos de reducción de ruido, se puede imponer una restricción en el límite de atenuación de ruido. Según un aspecto de la invención, el valor mínimo de filtro de supresión de ruido 360a se computa como una función de la ganancia de AGC ^ agc Í™ ), el valor predeterminado de supresión de ruido 3 des 234, por ejemplo, la cantidad deseada de atenuación de ruido, y un límite de distorsión goL 358a, que produce
Figure imgf000013_0003
donde el superíndice [DC] denota el caso restringido en distorsión, en contraste al caso mencionado anteriormente denotado por el superíndice [UC]. Este planteamiento se ilustra en más detalle en la figura 7 y figura 9.
[0065] El filtro de NR en el caso restringido en distorsión se obtiene de una manera similar como se describe anteriormente, es decir
Figure imgf000013_0004
que conduce a la realización total de filtro NR y AGC:
Figure imgf000013_0005
[0066] El límite de distorsión goL 358a es una constante que debe
Figure imgf000013_0006
. También se puede entender como la cantidad de mejora de SNR permitida por el sistema. Un bajo goL proporciona buena protección contra artefactos de reducción de ruido, pero al coste de una pobre atenuación del ruido. Esto se representa en la gráfica 1260, donde el nivel de ruido se incrementa a medida que se amplifica la voz. Se puede verificar fácilmente que un límite de distorsión muy grande ¿?d l 358a alivia básicamente la restricción y jslUC] . ( i \
Figure imgf000014_0001
llega a ser equivalente a su contraparte no restringida El límite de distorsión se elige típicamente entre 15dB y 25dB.
0067 Adicionalmente, se pueden usar herramientas de procesamiento tal como suavizado temporal para
Figure imgf000014_0002
el valor mínimo de filtro de supresión de ruido, con el paso del tiempo.
[0068] La figura 4 ilustra un diagrama de bloques de un aparato 400 según una realización preferida de la invención. El aparato 400 comprende un analizador de señal de audio 130 como se describe en la figura 3 para el aparato 300. Además, el aparato 400 comprende un primer convertidor de tiempo-frecuencia 320a, que se configura para proporcionar una pluralidad de bandas de la señal de audio 354 al analizador de señal de audio 130. Adicionalmente, el aparato 400 comprende un segundo convertidor de tiempo-frecuencia 320b que se configura para proporcionar una representación en el dominio de tiempo de los valores de filtro de supresión de ruido 364. El segundo convertidor de tiempo-frecuencia 320b proporciona una representación en el dominio de tiempo de los valores de filtro de supresión de ruido 464. Además, el aparato 400 comprende un filtro 410, que se ajusta según la representación de dominio de tiempo de los valores de filtro de supresión de ruido 464.
[0069] El filtro 410 se configura para realizar una convolución en el dominio de tiempo de la señal de audio 110 y la representación en el dominio de tiempo de los valores de filtro de supresión de ruido 464. Similar al aparato 300, el aparato 400 ofrece la posibilidad de aplicar detección de actividad de voz 340 en el analizador de señal de audio en base a la señal de audio 110 antes de la filtración con el filtro 410 o después de la filtración con el filtro 410, indicada por el conmutador 320c. Además, el valor de ganancia se puede aplicar a la señal de audio antes de la filtración con el filtro 410 o después de la filtración con el filtro 410, indicado por los conmutadores 330a y 330b. El aparato 400 ofrece a través de su filtración a base de dominio de tiempo, un menor retraso en comparación con un procesamiento a modo de intervalo en el dominio de frecuencia como se describe para el aparato 300.
[0070] La figura 5 ilustra la determinación del valor de filtro de supresión de ruido del analizador de señal de audio 130. En una primera etapa 510, se computa un cociente entre el valor predeterminado de supresión de ruido gdes 234 y el valor de ganancia ^AGcCm 5, determinando de este modo el valor mínimo de filtro de supresión de ruido 358c. En una siguiente etapa 520, los valores no restringidos de filtro de supresión de ruido t í 356a se comparan cada uno al valor mínimo de supresión de ruido, de modo que los valores de los valores no restringidos de filtro de supresión de ruido 356a que son más pequeños que el valor mínimo de filtro de supresión de ruido 358c se ajustan al valor mínimo de filtro de supresión de ruido 358c. Esto se puede describir por:
Figure imgf000014_0003
por lo que, se obtienen los valores de filtro de supresión de ruido 364. El límite inferior descrito de los valores de filtro de supresión de ruido puede ser ventajoso al evitar distorsiones debido a reducción agresiva de ruido.
[0071] La figura 6 ilustra la selección de valor de filtro de supresión de ruido en el analizador de señal de audio 130 según una realización preferida de la invención. En una primera etapa 510, se computa un cociente entre el valor predeterminado de supresión de ruido 234 y el valor de ganancia. En una siguiente etapa, se hace una decisión mínima 620 entre el cociente del valor predeterminado de supresión de ruido 234 y el valor de ganancia, y el valor predeterminado de supresión de ruido 234. De este modo, un valor mínimo grande de filtro de supresión de ruido 358c se puede evitar cuando es pequeño el valor de ganancia, debido a que la decisión mínima limita de forma superior el valor mínimo de filtro de supresión de ruido 358c al valor predeterminado de supresión de ruido 234. En otras palabras, un valor mínimo de filtro de supresión de ruido 358c se obtiene que se limita de forma superior por el valor predeterminado de supresión de ruido 234. La selección del valor mínimo de filtro de supresión de ruido 358c se puede resumir en la siguiente ecuación:
Figure imgf000014_0004
[0072] En una etapa final, el valor mínimo de filtro de supresión de ruido 358c se compara a los valores no restringidos de filtro de supresión de ruido 356a de modo que en base a una decisión máxima 630, se obtienen valores de filtro de supresión de ruido 364 que se limitan de forma inferior por el valor mínimo de filtro de supresión de ruido 358c. La estimación descrita asegura la supresión de ruido aunque se proporcione un valor pequeño de ganancia ^AGcCm 5, por lo que se obtiene una reducción de ruido más allá de la atenuación total de señal, lograda por el valor pequeño de ganancia.
[0073] En la figura 7 se describe una determinación de valor mínimo de filtro de supresión de ruido como que se realiza en el analizador de señal de audio 130 según una realización preferida de la invención. En una primera etapa, se computa un cociente del valor predeterminado de supresión de ruido 234 y el valor de ganancia. El cociente entre el valor predeterminado de supresión de ruido 234 y el valor de ganancia se somete a una primera decisión máxima 710 con una inversa de un límite predeterminado de distorsión 358a. El resultado de la primera decisión máxima 710 se somete a una primera decisión mínima 720 con respecto a una inversa del valor de ganancia 705. Adicionalmente, el resultado de la primera decisión mínima 720 se somete a una segunda decisión mínima 730 con respecto al valor predeterminado de supresión de ruido 234. De este modo, el valor mínimo de filtro de supresión de ruido 358c se obtiene como resultado de la segunda decisión mínima 730. Este procedimiento produce el llamado valor mínimo de filtro de supresión de ruido, restringido por distorsión, por ejemplo, un límite de atenuación de ruido restringido por distorsión. Para entender mejor el significado de la restricción, se puede reformular del siguiente modo:
Figure imgf000015_0003
[0074] La regla de actualización para el límite de atenuación de ruido computado como se describe anteriormente, se puede formular de manera equivalente como
Figure imgf000015_0001
y se lustra en la gráfica de la figura 11 con la línea continua marcada como “Restringido por distorsión”.
[0075] En una segunda decisión máxima 740, el valor mínimo de filtro de supresión de ruido 358c se compara a cada valor no restringido individual de filtro de supresión de ruido 356a, de modo que valores no restringidos de supresión de ruido más pequeños que el valor mínimo de filtro de supresión de ruido 358c se ajustan al valor mínimo de filtro de supresión de ruido 358c, obteniendo de ese modo los valores de filtro de supresión de ruido 364. La determinación de valor de filtro de supresión de ruido como se describe anteriormente es beneficiosa para evitar distorsiones de señal debidas a reducción agresiva de ruido.
[0076] La figura 8 ilustra un diagrama de bloques de un aparato 800 según una realización preferida de la invención, que ofrece procesamiento conjunto de NR/AGC con control automático de ganancia de límite no
restringido de atenuación de ruido
Figure imgf000015_0002
[0077] El aparato 800 comprende un analizador de señal de audio 830 y un filtro 820. Adicionalmente, se proporciona una señal de entrada al filtro 820 y se procesa por una primera etapa de filtro 822 para aplicar reducción de ruido. Además, la salida de la primera etapa de filtro 822 se proporciona al analizador de señal de audio 830 y una segunda etapa de filtro 824 del filtro 820, donde se aplica un valor de ganancia.
[0078] Adicionalmente, el filtro proporciona una señal de salida. La señal de salida de la primera etapa de filtro 822 se usa en el analizador de señal de audio 830 para computar una detección de actividad de voz 840. Como resultado de la detección de actividad de voz 840, se hace una decisión 842 ya sea para seguir una señal para computar un nivel de señal 842, como una característica de la señal de audio, que se usa para computar una nueva ganancia de AGC 844 en base al nivel de señal y un nivel diana, o para mantener una ganancia anterior de AGC 846. La decisión de si se computa una nueva ganancia o se mantiene una ganancia anterior se basa en una presencia de voz en la señal proporcionada al detector activado por voz 840.
[0079] El valor de ganancia determinado entonces se proporciona a la segunda etapa de filtro 840 donde se aplica a la señal. Adicionalmente, el valor de ganancia se usa en el analizador de señal de audio 830 para computar un límite no restringido de atenuación de ruido, es decir, un valor mínimo de filtro de supresión de ruido, en base al valor de ganancia y una atenuación deseada de ruido, es decir, un valor predeterminado de supresión de ruido 234. Además, usando el límite no restringido de atenuación de ruido, la señal de entrada y la ganancia de AGC, los valores de filtro de supresión de ruido se determinan 862 y se proporcionan a la primera etapa de filtro 822 del filtro 820.
[0080] Cuando el AGC activa una amplificación de señal (en lugar de una atenuación), también es posible aplicar la ganancia de AGC durante períodos de voz únicamente, similar a la figura 17. La ganancia de AGC se disminuye entonces de manera temporal o se ajusta directamente a la unidad durante pausas de voz. Puesto que la anancia de AGC se toma en cuenta en el cómputo de límite de atenuación de ruido
Figure imgf000016_0001
fuertemente la ganancia de AGC. La estrategia descrita tiene la ventaja de asegurar reducción de ruido aún para ganancias grandes de AGC. Además, la estrategia descrita evita un efecto de bombeo de ruido, el cual padecen otras estrategias, lo que conduce a un incremento rápido del ruido de fondo en los comienzos de voz y una rápida disminución en las descompensaciones de voz.
[0081] La estimación de los valores de filtro de supresión de ruido 862 se puede realizar por ejemplo según la figura 5 o como se describe en la figura 6. El aparato descrito 800 es adecuado para lograr una supresión predeterminada de ruido y amplificar o atenuar una señal cuando se necesite incrementar la inteligibilidad.
[0082] La figura 9 ilustra un diagrama de bloques de un aparato 900 según una realización preferida de la invención, donde se realiza el procesamiento conjunto de NR y a Gc con control automático de límite de atenuación de ruido bajo una restricción por distorsión. De manera alternativa, el cómputo de la ganancia de AGC se puede llevar a cabo en base a la señal de entrada de audio no procesada, es decir, antes de aplicar la reducción de ruido. El aparato 900 comprende mucho de la misma funcionalidad como el aparato 800 en la figura 8, pero para la estimación de los valores de filtro de supresión de ruido 862 se considera un parámetro adicional, un límite de distorsión 358a, o de manera más general un límite predeterminado de distorsión. El aparato 900 es especialmente adecuado para evitar distorsiones de señal tal como distorsión de voz o tonos musicales debidos a supresión agresiva de ruido introducida por un valor mínimo pequeño de supresión de ruido, potencialmente provocado por una ganancia grande de AGC.
[0083] La figura 10 muestra un diagrama de respuestas de sistema cuando la señal de entrada al sistema se caracteriza principalmente como ruido. En otras palabras, se muestra la respuesta total de ruido como una función de la ganancia de AGC cuando se aplica NR y AGC con límite de atenuación de ruido, restringido o no restringido (líneas continuas y discontinuas, respectivamente).
[0084] La línea marcada no restringida se refiere por ejemplo a la realización preferida como se describe en el aparato 800 como una realización preferida de la invención como se describe en la figura 8. Adicionalmente, la línea restringida por distorsión se refiere por ejemplo al aparato 900 como una realización preferida de la invención como se describe en la figura 9. Las respuestas del sistema en la figura 10 se exhiben en valores logarítmicos en dependencia de un valor de ganancia dado en valores logarítmicos. La figura 10 muestra que para bajos valores de ganancia (valores de ganancia menores de 0 dB) realmente se logra una atenuación para la respuesta total de sistema, debido al control de ganancia y reducción de ruido, en conjunto. Cuando el valor de ganancia está entre 0 dB y el producto del valor predeterminado de supresión de ruido y el límite de distorsión, se logra una supresión constante de ruido por los aparatos restringidos por distorsión y no restringidos igualmente, por ejemplo el aparato 800 y el aparato 900, respectivamente. Cuando el valor de ganancia está entre el producto del valor predeterminado de supresión de ruido y el límite de distorsión predeterminado, y el límite predeterminado de distorsión, la respuesta total de sistema de la gráfica restringida por distorsión se incrementa a 0 dB, por ejemplo de manera lineal.
[0085] Adicionalmente, la gráfica marcada “no restringido” permanece constante en el valor del valor predeterminado de supresión de ruido, cuando el valor de ganancia está entre el producto del valor predeterminado de supresión de ruido y el límite predeterminado de distorsión y el límite de distorsión. Además, la gráfica marcada “restringido por distorsión” permanece constante, para valores de ganancia mayores que el límite predeterminado de distorsión, a 0 dB. Adicionalmente, la gráfica marcada “no restringido” permanece constante al valor del valor predeterminado de supresión de ruido, para valores de ganancia mayores que el límite predeterminado de distorsión. En otras palabras, para el caso restringido por distorsión, la respuesta total de sistema, para una señal de audio principalmente caracterizada como ruido, se puede describir como:
' GaccO O x 0dcs si 0 < g agc ( m ) < 1
A m , 3 des Si 1 < G AGC ( m ) < 8desX8 DL
“ NR+AGC(m ,k )
SNR-0 GAC,dm )/8 i) i si8 des x8 DL < G AGC (m ) < 8DL
V i
de lo contrario
[0086] En resumen, la figura 10 describe con la gráfica marcada “no restringido”, que se relaciona por ejemplo con el aparato 800, y con la gráfica marcada “restringido por distorsión”, que se relaciona por ejemplo con el aparato 900, que el ruido no se amplifica por ambos aparatos en situaciones donde la señal de entrada solo se caracteriza por ruido. De este modo, se puede evitar una amplificación incómoda de ruido.
[0087] La figura 11 ilustra una gráfica con dos líneas, una marcada “no restringido” y otra marcada “restringido por distorsión”, que se refiere al valor mínimo de filtro de supresión de ruido como se describe en la figura 6 o figura 7, respectivamente. En otras palabras, se muestra un límite de atenuación de ruido como una función de la ganancia de AGC para los casos restringido y no restringido (línea sólida y de puntos, respectivamente).
[0088] El valor mínimo de filtro de supresión de ruido puede ser por ejemplo un límite de atenuación de ruido, dado aquí en valores logarítmicos. Adicionalmente, las gráficas se representan con dependencia al valor de ganancia en valores logarítmicos. La gráfica marcada “no restringido” es constante al valor predeterminado de supresión de ruido para valores de ganancia menores de 0. Además, la gráfica marcada “no restringido” disminuye para valores de ganancia mayores de 0 dB, por ejemplo de manera lineal. Además, la gráfica marcada “restringido por distorsión” es constante a un valor del valor predeterminado de supresión de ruido para valores de ganancia menores de 0 dB, y disminuye, por ejemplo linealmente, para valores de ganancia mayores de 0 dB y menores que el producto del valor predeterminado de supresión de ruido y el límite predeterminado de distorsión, desde el valor predeterminado de supresión de ruido a la inversa del límite predeterminado de distorsión.
[0089] Adicionalmente, la gráfica marcada “restringido por distorsión” permanece constante a un valor de la inversa del valor predeterminado del límite de distorsión, para valores de ganancia entre el producto del valor predeterminado de supresión de ruido y el límite predeterminado de distorsión, y el límite predeterminado de distorsión. Además, la gráfica marcada “restringido por distorsión” disminuye, por ejemplo linealmente, para valores de ganancia mayores que el valor límite de distorsión predeterminado. Para el caso restringido por distorsión, esto se puede describir equivalentemente como:
Figure imgf000017_0004
D L
de lo contrario
[0090] Para comparación, se muestra en el caso no restringido y el caso restringido como una línea de puntos y una línea sólida, respectivamente. Se puede observar que el límite de atenuación de ruido restringido por distorsión se comporta igual que la contraparte no restringida para ganancias bajas a moderadas de AGC
ices x í':-i . Conforme se incrementa la ganancia de AGC, Bm(n
Figure imgf000017_0001
disminuye hacia abajo a 1/gDL y permanece en este nivel al mismo tiempo que ^AGc(m J — 5 dl . Por lo tanto, la restricción por distorsión se cumple para ganancias de AGC hasta el límite de distorsión £?dl únicamente. Por encima de eso, el límite de reducción de ruido empieza a disminuir de nuevo. Esto es para asegurar que el ruido no se amplifique en la salida en comparación con la entrada, que llega a ser evidente si derivamos la respuesta total del sistema representada en la figura 10 para segmentos de ruido caracterizados por una baja SNR. En este
M dcL
caso, se asume que el filtro NR l,n f 1
Figure imgf000017_0003
alcanza su mínimo Uml jji
Figure imgf000017_0002
Por lo tanto, la respuesta total de ruido se puede describir como:
Figure imgf000017_0005
L
donde es visible que la respuesta de ruido total se incremente para ganancias crecientes de AGC, pero permanece por debajo de uno para asegurar que no se amplifique el ruido. La respuesta total de ruido se representa como una función de la ganancia de AGC en la figura 10 como una línea sólida. La respuesta de ruido no restringida se muestra como una línea de puntos para comparación en la figura 10.
[0091] La figura 11 ilustra una dependencia ventajosa del valor mínimo de filtro de supresión de ruido en el valor de ganancia para permitir una reducción flexible de ruido según la ganancia aplicada (AGC). Adicionalmente, la gráfica marcada “restringido por distorsión” y la gráfica marcada “no restringido” exhiben la capacidad para mantener el valor mínimo de filtro de supresión de ruido sustancialmente por encima de 0, evitando por lo tanto distorsiones de señal.
[0092] La figura 12 ilustra niveles de señal después de varios procesamientos por ejemplo con los aparatos 100, 300, 400, 800 o 900. Adicionalmente, se representan los niveles de voz y ruido antes de los procesamientos NR+AGC (1210) y después del procesamiento NR/AGC (1220, 1230, 1240, 1250, 1260).
[0093] La gráfica 1210 es un ejemplo ilustrativo de una señal de audio, que describe por ejemplo la señal de audio 110. Adicionalmente, la gráfica 1210 muestra un nivel constante de ruido con el paso del tiempo y dos fases en las cuales está activa la voz. La voz, cuando está activa, tiene un mayor nivel de señal que el ruido, dando como resultado una relación de señal a ruido (SNR) positiva. Además, la gráfica 1210 muestra el nivel diana marcado en línea de puntos, al que se supone que se ajusta por ejemplo una señal de voz para permitir una experiencia confortable de comprensión auditiva.
[0094] La gráfica 1220 muestra la señal como se exhibe en la gráfica 1210 después de que se procesa por algo de reducción de ruido y control de ganancia, por ejemplo algún esquema de control automático de ganancia. Se obtiene una mayor SNR en períodos de actividad de voz. Además, el nivel de ruido se amplifica también hacia el nivel diana, dando como resultado una amplificación no confortable de ruido.
[0095] La gráfica 1230 exhibe los niveles de salida de una señal, por ejemplo una señal como se describe en la gráfica 1210 después del procesamiento, donde por ejemplo para el procesamiento de un control automático de ganancia se aprovecha una detección de actividad de voz para ayudar en la actualización del control automático de ganancia. Por lo tanto, en el primer intervalo de tiempo, el nivel de ruido no se amplifica hacia el nivel diana, una amplificación solo se inicia después de que se detecta la actividad de voz.
[0096] La gráfica 1240 muestra los niveles de salida de una señal, por ejemplo la señal de salida como se describe en la gráfica 1210, después del procesamiento de señal, donde el procesamiento comprende por ejemplo una reducción de ruido y un control automático de ganancia, donde el control automático de ganancia aprovecha la detección de la actividad de voz para aplicar el control automático de ganancia a solo fases de voz.
[0097] La gráfica 1250 muestra niveles de salida de una señal de entrada, por ejemplo como se representa en la gráfica 1210, después del procesamiento de señal, donde el procesamiento de señal por ejemplo comprende control no restringido de ruido y control automático de ganancia como se describe por ejemplo en la figura 8 para el aparato 800. De este modo, un mayor incremento en SNR es observable en fases de actividad de voz. Adicionalmente, el nivel de ruido está a un nivel sustancialmente constante y se reduce en comparación con la gráfica 1210.
[0098] La gráfica 1260 muestra niveles de salida, por ejemplo de una señal de entrada como se representa en la gráfica 1210 después del procesamiento de señal, donde el procesamiento de señal comprende control automático de ganancia y reducción de ruido, en conjunto bajo una restricción por distorsión como se describe por ejemplo en la figura 9 para el aparato 900. Se puede obtener un incremento grande de la relación de señal a ruido en comparación con la gráfica 1210. Adicionalmente, el nivel de ruido está a un nivel sustancialmente constante. Además, una restricción por distorsión evita distorsiones incómodas de señal en la salida del procesamiento.
[0099] La figura 13 ilustra un diagrama de bloques de un sistema de comunicación de voz dúplex completo bidireccional 1300 según una realización preferida de la invención. El sistema comprende un lado de extremo cercano y un lado de extremo lejano, y una transición entre éstos. Adicionalmente, el lado de extremo cercano y el lado de extremo lejano comprenden cada uno un altavoz y un micrófono, así como una unidad de procesamiento de señal de audio, donde la unidad de procesamiento de señal de audio puede comprender uno de los aparatos 100, 300, 400, 800, 900.
[0100] En el lado de extremo cercano una persona habla en el micrófono y recibe información de audio a través del altavoz. Adicionalmente, en el lado de extremo lejano otra persona habla en el micrófono y recibe información de audio transmitida desde el lado de extremo cercano a través del altavoz, de manera concurrentemente potencial puesto que es un sistema de dúplex completo. El sistema 1300 facilita una experiencia confortable de comprensión auditiva y mejora la inteligibilidad de voz de una comunicación de voz que tiene lugar entre el lado de extremo cercano y el lado de extremo lejano. Especialmente, para un escenario de manos libres, donde la distancia entre un usuario y el micrófono puede variar, la realización descrita puede ser adecuada para mejorar la inteligibilidad.
[0101] La figura 14 ilustra un diagrama de bloques de una cadena de procesamiento de señal que se puede emplear como un lado de extremo cercano o lado de extremo lejano de un sistema de comunicación de voz, por ejemplo, el sistema de comunicación de voz 1300.
[0102] La figura 15 ilustra un diagrama de bloques de una cadena de procesamiento de señal, muestra una configuración básica para aplicar independientemente procesamiento de NR y AGC. Primero, una señal de entrada se somete a una reducción de ruido que se basa en un valor predeterminado de supresión de ruido, aquí, una atenuación deseada de ruido, la señal resultante después de la reducción de ruido se usa para computar un nivel de señal y para computar un valor de ganancia, por ejemplo una ganancia de control automático de ganancia, en base a un nivel computado de señal y un nivel diana predeterminado. En una siguiente etapa, el valor de ganancia computado, por ejemplo, la ganancia de AGC computada, se aplica a la señal después de que se realiza la reducción de ruido.
[0103] Se puede aplicar control automático de ganancia a la salida del módulo de reducción de ruido por ejemplo en una base de intervalo por intervalo usando el procedimiento de tres etapas representado en la figura 15 y detallado a continuación:
1. Computo de nivel: el nivel de señal, denotado por L(m), se computa en la entrada de AGC (aquí la salida de reducción de ruido (NR)). Una medida para el nivel de señal puede ser una sola varianza. De manera alternativa, se puede aplicar ponderación espectral para imitar el sistema auditivo humano, produciendo una medida de la sonoridad percibida.
2. Computación de ganancia: se deriva una ganancia escalar al comparar el nivel de señal de entrada actual, denotado por L(m), con un nivel diana predefinido de voz Ltar, como se describe para los aparatos 300 y 400 como valor diana. Esto se puede lograr del siguiente modo:
Gagc(
Figure imgf000019_0001
donde ^rAGc(m ) es la ganancia de AGC computada en el intervalo m y p es un factor de olvido usado para suavizar temporalmente la ganancia de AGC (con 0 < ^ < 1 y
3. Multiplicación de ganancia: la última etapa comprende una multiplicación de la señal de entrada con la ganancia de AGC. Esto se puede hacer equivalentemente ya sea en el dominio de tiempo o en el dominio de frecuencia.
[0104] El procedimiento anterior da como resultado una amplificación de la señal de audio de entrada cuando el nivel de entrada de AGC L(m) está por debajo del nivel diana Ltar. En contraste, se aplica alguna atenuación cuando el nivel de señal L(m) está por encima del nivel diana Ltar. Por lo tanto, la ganancia de AGC se ajusta automáticamente con el paso del tiempo y por lo tanto es variable en el tiempo. Adicionalmente, el cómputo de ganancia descrito puede ser en parte o completamente usado según los módulos de los aparatos descritos 300, 400, 800 y 900. Además, para el uso en los aparatos mencionados, también se pueden aplicar modificaciones a los procedimientos descritos, por ejemplo en base al empleo de una detección de actividad de voz. Además, se señala la ausencia de interacción entre los módulos de AGC y NR, que se enfatiza por la línea de puntos horizontal en la figura 15.
[0105] Cuando, por ejemplo, el nivel de ruido de fondo después de la filtración NR es menor que el nivel de voz, el inconveniente de esta estrategia es que provoca una disminución del nivel medido LtyrO en la entrada de AGC, que a su vez provoca un aumento de la ganancia de AGC durante las pausas de voz, seguido por una disminución de la ganancia de AGC en los inicios de la voz. Este fenómeno se ilustra en la figura 12, donde la gráfica 1210 muestra el nivel de los componentes de voz y ruido en una señal de audio de entrada (antes de NR). La gráfica 1220 muestra los niveles de voz y ruido después de la aplicación de NR y AGC según el procedimiento anterior. A pesar de los niveles constantes de voz y ruido a la entrada, se ve que este procedimiento produce un nivel de voz variable en tiempo, que no es el comportamiento deseado para un AGC. Además, se produce un nivel de ruido variable en tiempo, lo que resulta en un efecto de ruido de bombeo muy desagradable en la señal de salida.
Para resolver estos problemas, se usa una Detección de Actividad de Voz (VAD), como se ha explicado por las figuras 3, 4, 8, 9, 16 y 17.
[0106] La figura 16 ilustra un diagrama de bloques de un aparato para procesar una señal, muestra el procesamiento separado de AGC y NR con la detección de actividad de voz que desencadena la actualización de ganancia. En una primera etapa, una señal de entrada se somete a una reducción de ruido, que se basa en un valor predeterminado de supresión de ruido, por ejemplo, una atenuación deseada de ruido. En una siguiente etapa, la señal de entrada después de ser sometida a la reducción de ruido se utiliza para calcular una detección de actividad de voz, en la que se basa una decisión de actividad de voz. Cuando se ha detectado la voz, un nivel de señal se calcula basándose en la señal de entrada después de la reducción de ruido. En una etapa adicional, en el supuesto de actividad de voz, un valor de ganancia, por ejemplo, una nueva ganancia de control automático de ganancia, se determina basándose en el nivel de señal calculado y un nivel diana predeterminado. Cuando no se ha detectado voz por la detección de actividad de voz se emplea un valor de ganancia a partir de un instante previo de tiempo. En una etapa final, el valor de ganancia, ya sea el valor de ganancia a partir de un instante previo de tiempo o el valor de ganancia calculado a partir del instante actual de tiempo, se aplica a la señal después de la reducción de ruido, proporcionando con ello una señal de salida.
[0107] Para evitar un efecto de bombeo de ruido y proporcionar un nivel de voz consistente, una VAD (= Detección de Actividad de Voz) se puede aplicar para derivar la actualización de ganancia durante las pausas de voz, como se muestra en la figura 16. A condición de que la actividad de voz pueda ser detectada de forma fiable, la ganancia de AGC se puede ajustar durante solo segmentos activos de voz, mientras se mantiene la ganancia de AGC constante durante las pausas de voz. Como se representa en la gráfica 1230, este procedimiento produce un nivel de voz consistente y evita el efecto de bombeo de ruido (nivel de ruido constante después de convergencia). Sin embargo, puede provocar un aumento significativo del nivel de ruido absoluto para grandes ganancias de AGC, que se hace especialmente notable durante las pausas de voz en la práctica.
[0108] La figura 17 ilustra un diagrama de bloques para el procesamiento de señal que es análogo al diagrama de bloques descrito en la figura 16 con el procesamiento separado de NR y a Gc con VAD que desencadena todo el procesamiento de AGC. Además, el diagrama de bloques en la figura 17 describe el ajuste de un valor de ganancia a 1 cuando no se ha detectado ninguna voz. Para anular la amplificación de ruido durante las pausas de voz, como se representa en la gráfica 1230, la ganancia de AGC se aplica solo durante períodos de voz, tal como se presenta en la figura 17 (la aplicación de unidad durante las pausas de voz es equivalente a no aplicar una ganancia de AGC). Esta estrategia proporciona un nivel bajo de voz y evita la amplificación de ruido durante las pausas de voz. Sin embargo, da como resultado de nuevo una escala variable en tiempo del ruido (véase la gráfica 1240), que se percibe como un efecto de bombeo de ruido molesto en la práctica.
[0109] La figura 18 ilustra un extremo cercano o un lado de extremo lejano de un sistema de comunicación según una realización preferida de la invención, por ejemplo, el sistema de comunicación de voz 1300 como se describe en la figura 13. El extremo lejano o el lado de extremo cercano se pueden lograr con una estructura similar. Por lo tanto, solo se describe uno de los lados, pero todas las funcionalidades también pueden estar disponibles en el otro lado.
[0110] El lado considerado comprende un altavoz 1810 para la entrega de contenido de audio a un oyente y un micrófono 1820 para recoger una señal deseada, por ejemplo, una señal de voz de una persona hablando. Además, un sistema de control de eco 1830 suprime los ecos de la señal de micrófono en base a la señal del altavoz. Después del control de eco 1830, un control de ganancia y reducción de ruido en conjunto 1840 procesa la señal. El control de ganancia y reducción de ruido en conjunto 1840 se puede realizar por ejemplo por los aparatos 100, 300, 400, 800 y 900.
[0111] Además, un sistema de ruido cómodo 1850 aplica un ruido cómodo a una señal después del control de ganancia y reducción de ruido en conjunto 1840, para permitir una experiencia cómoda de escucha a un usuario en el extremo lejano, por ejemplo, cuando no hay un componente de señal deseada presente en la señal adquirida del micrófono (es decir, actividad de solo extremo lejano). En resumen, el sistema descrito en la figura 18 ofrece un procesamiento de señal de modo que una señal que se transmite por ejemplo a un lado de extremo lejano ofrece un componente de voz inteligible de la señal transmitida y una experiencia cómoda de escucha para un usuario en el lado de extremo lejano.
[0112] La figura 19 ilustra un diagrama de bloques de un lado de extremo lejano de un sistema de comunicación según una realización preferida de la invención. El sistema en la figura 19 comprende un altavoz 1810 configurado para distribuir contenido de audio a un oyente y un micrófono 1820 configurado para permitir la grabación de una señal de audio que por ejemplo contiene contenido de voz. Además, el sistema descrito en la figura 19 comprende un control de ganancia y reducción de ruido en conjunto 1840 para la señal suministrada al altavoz 1810. Además, la señal grabada por el micrófono 1820 se somete a un control de eco 1830 que se basa en la señal distribuida al altavoz 1810 y un sistema de ruido cómodo 1850. El control de eco 1830 y el sistema de ruido cómodo 1850 comprenden la misma funcionalidad que se describe en la figura 18. Además, el control de ganancia y reducción de ruido en conjunto 1840 se puede realizar por ejemplo por los aparatos 100, 300, 400, 800 o 900. De este modo, el sistema descrito en la figura 19 proporciona una señal de voz inteligible cuando la señal de audio distribuida al altavoz comprende un componente de voz. Por otra parte, debido a la parte de reducción de ruido, se logra una experiencia cómoda de escucha.
[0113] Realizaciones adicionales se basan en un procesamiento de la señal de audio en una secuencia de intervalos. El analizador de señal de audio (130; 830; 930) se configura para analizar la señal de audio en la secuencia de intervalos que comprende una primera trama y una segunda trama después de la primera trama en tiempo, para determinar, para la primera trama, una primera pluralidad de valores de supresión de ruido, y para la segunda trama, una segunda pluralidad de valores de supresión de ruido. El analizador se configura para determinar la primera pluralidad de valores de filtro de supresión de ruido de manera que los valores de filtro de supresión de ruido de la primera pluralidad de valores de filtro de supresión de ruido sean mayores que o iguales a un primer valor mínimo de filtro de supresión de ruido (130b'; 240; 358c, 360a) determinado para la primera trama, y de modo que el primer valor mínimo de filtro de supresión de ruido dependa de una primera característica de la primera trama de la señal de audio (130c'). El analizador se configura además para determinar la segunda pluralidad de valores de filtro de supresión de ruido de manera que los valores de filtro de supresión de ruido de la segunda pluralidad de valores de filtro de supresión de ruido sean mayores que o iguales a un segundo valor mínimo de filtro de supresión de ruido (130b'; 240; 358c, 360a) determinado para la segunda trama, y de modo que el segundo valor mínimo de filtro de supresión de ruido dependa de una segunda característica del segundo intervalo de la señal de audio (130c'). El filtro (120; 310; 410; 820) se configura para filtrar la señal de audio en la secuencia de tramas, donde un primer filtro para la primera trama se ajusta basándose en la primera pluralidad de valores de supresión de ruido, y donde un segundo filtro para la segunda trama se ajusta basándose en la segunda pluralidad de valores de supresión de ruido. El filtro (120; 310; 410; 820) se configura adicionalmente para filtrar la primera trama de la señal de audio con el primer filtro y para filtrar la segunda trama de la señal de audio con el segundo filtro.
[0114] Concluyendo, algunas realizaciones de la presente invención se pueden resumir en una lista. En una realización preferida, NR se aplica primero y comprende las siguientes etapas:
1. Recibir una señal de entrada de audio.
2. Determinar un límite de atenuación de ruido basado en la ganancia de AGC determinada en la trama de tiempo previa, una cantidad deseada de atenuación de ruido, y opcionalmente basada también en un límite de distorsión.
3. Determinar un filtro de reducción de ruido basado en la señal de entrada de audio y el límite de atenuación del ruido.
4. Determinar una ganancia de AGC basada en un nivel diana de señal, una información de actividad de voz opcional, y una señal de audio
a) la señal de audio que es la señal de entrada de audio, o
b) la señal de audio que es una señal de audio reducida en ruido obtenida aplicando el filtro de reducción de ruido a la señal de entrada de audio,
la información opcional de actividad de voz se utiliza para, opcionalmente, disminuir la ganancia de AGC durante las pausas de voz.
5. Generar una señal de audio de salida al aplicar el filtro de reducción de ruido y la ganancia de AGC obtenida en la trama previa a la señal de entrada de audio.
[0115] Además, otra realización preferida según la invención se caracteriza puesto que la aplicación de AGC primero se lleva a cabo de acuerdo con:
1. Recibir una señal de entrada de audio.
2. Determinar una ganancia de AGC en base a un nivel diana de señal, una información opcional de actividad de voz, y la señal de entrada de audio
la información opcional de actividad de voz se utiliza para, opcionalmente, disminuir la ganancia de AGC durante las pausas de voz.
3. determinar un límite de atenuación de ruido
a) en base a una cantidad deseada de atenuación de ruido y la ganancia de AGC actual, o
b) en base a una cantidad deseada atenuación de ruido, un límite de distorsión, y la ganancia de AGC actual.
4. Determinar un filtro de reducción de ruido en base a la señal de entrada de audio y el límite de atenuación del ruido.
5. Generar una señal de audio de salida al aplicar el filtro de reducción de ruido y la ganancia de AGC a la señal de entrada de audio.
[0116] Aunque la presente invención se ha descrito en el contexto de diagramas de bloques, donde los bloques representan componentes reales o lógicos de hardware, la presente invención se puede implementar también por un procedimiento implementado por ordenador. En este último caso, los bloques representan etapas correspondientes de procedimiento donde estas etapas representan las funcionalidades realizadas por los correspondientes bloques lógicos o físicos de hardware.
[0117] Aunque algunos aspectos se han descrito en el contexto de un aparato, es evidente que estos aspectos representan también una descripción del procedimiento correspondiente, donde un bloque o dispositivo corresponde a una etapa de procedimiento o una característica de una etapa de procedimiento. Análogamente, los aspectos descritos en el contexto de una etapa de procedimiento representan también una descripción de un bloque correspondiente o un elemento o característica de un aparato correspondiente. Algunas o todas las etapas de procedimiento se pueden ejecutar por (o mediante) un aparato de hardware como, por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, algunas de una o más etapas de procedimiento más importantes se pueden ejecutar por este aparato.
[0118] Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención se pueden implementar en hardware o en software. La implementación se puede realizar utilizando un medio de almacenamiento digital, por ejemplo un disquete, un DVD, un disco Blu-Ray, un CD, una ROM, una PROM, y EPROM, una EEPROM o una memoria FLASH, que tienen señales de control electrónicamente legibles almacenadas el mismo, que cooperan (o son capaces de cooperar) con un sistema informático programable de tal manera que se lleva a cabo el procedimiento respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
[0119] Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control electrónicamente legibles, que son capaces de cooperar con un sistema informático programable, de modo que se lleva a cabo uno de los procedimientos descritos en esta invención.
[0120] En general, las realizaciones de la presente invención se pueden implementar como un producto de programa informático con un código de programa, el código de programa que es operativo para realizar uno de los procedimientos, cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede estar, por ejemplo, almacenado en un soporte legible por máquina.
[0121] Otras realizaciones comprenden el programa informático para realizar uno de los procedimientos descritos en esta invención, almacenado en un soporte legible por máquina.
[0122] En otras palabras, una realización del procedimiento inventivo es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los procedimientos descritos en esta invención, cuando el programa informático se ejecuta en un ordenador.
[0123] Una realización adicional del procedimiento inventivo es, por lo tanto, un soporte de datos (o un medio de almacenamiento no transitorio tal como un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los procedimientos descritos en esta invención. El soporte de datos, el medio de almacenamiento digital o el medio grabado son habitualmente tangibles y/o no transitorios.
[0124] Una realización adicional del procedimiento de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representan el programa informático para realizar uno de los procedimientos descritos en esta invención. El flujo de datos o la secuencia de señales se pueden, por ejemplo, configurar para ser transferidos a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.
[0125] Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurado para, o adaptado para, realizar uno de los procedimientos descritos en esta invención.
[0126] Una realización comprende además un ordenador que tiene instalado en el mismo el programa informático para realizar uno de los procedimientos descritos en esta invención.
[0127] Una realización adicional según la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, electrónica u ópticamente) un programa informático para realizar uno de los procedimientos descritos en esta invención a un receptor. El receptor puede, por ejemplo, ser un ordenador, un dispositivo móvil, un dispositivo de memoria o similar. El aparato o sistema puede comprender, por ejemplo, un servidor de archivos para transferir el programa informático al receptor.
[0128] En algunas realizaciones, un dispositivo lógico programable (por ejemplo, una matriz de compuerta programable en campo) se puede usar para realizar algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas realizaciones, una matriz de compuerta programable en campo podrá cooperar con un microprocesador con el fin de realizar uno de los procedimientos descritos en esta invención. En general, los procedimientos se realizan preferiblemente por cualquier aparato de hardware.
[0129] Las realizaciones anteriormente descritas son solo ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en esta invención serán evidentes para otros expertos en la materia. Es la intención, por lo tanto, que se limite solo por el alcance de las reivindicaciones de patente, inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones de esta invención.
Referencias
[1] E. Hansler y G. Schmidt: “Hands-free telephones -Joint Control of Echo Cancellation and Postfiltering”, Signal Processing, Volume: 80, Issue: 11, pp. 2295-2305, Sep. 2000.
[2] F. Küch, E. Mabande y G. Enzner, "State-space architecture of the partitioned-block-based acoustic echo controller," in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Mayo de 2014.
[3] A. Favrot, C. Faller, M. Kallinger, F. Küch, y M. Schmidt, “Acoustic Echo Control Based on Temporal Fluctuations of Short-Time Spectra,” in Proc. International Workshop on Acoustic Echo and Noise Control (IWAENC), Sept. 2008.
[4] Y. Ephraim, D. Malah, “Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator,” IEEE Trans. Acoust. Speech Signal Process, Vol. 32, pp. 1109-1121, Dic. 1984.
[5] Guangji Shi y Changxue Ma, “Subband Comfort Noise Insertion for an Acoustic Echo Suppressor,” in Proc.
133rd Audio Engineering Society Convention, Oct. 2012.
[6] M. Matsubara, K. Nomoto. "Audio signal processing device and noise suppression processing method in automatic gain control device." Publicación de patente N.° US 2008/0147387 A1.

Claims (1)

  1. REIVINDICACIONES
    1. Aparato (100; 300; 400; 800; 900) para procesar una señal de audio (110), que comprende:
    un analizador de señal de audio (130; 830; 930) para analizar una señal de audio para determinar una pluralidad de valores de filtro de supresión de ruido (260; 364, 364a-c,) para una pluralidad de bandas de la señal de audio (215; 354),
    donde el analizador está configurado para determinar los valores de filtro de supresión de ruido de manera que un valor de filtro de supresión de ruido sea mayor que o igual a un valor mínimo de filtro de supresión de ruido (130b'; 240; 358c, 360a), y
    de manera que el valor mínimo de filtro de supresión de ruido dependa de una característica de la señal de audio (130c'); y un filtro (120; 310; 410; 820) para filtrar la señal de audio, donde el filtro se ajusta en base a los valores de filtro de supresión de ruido,
    donde el analizador de señal de audio está configurado para calcular un valor de ganancia a partir de una trama de la señal de audio como la característica de la señal de audio, y
    donde el analizador de señal de audio está configurado para calcular el valor mínimo del filtro de supresión de ruido de modo que el valor mínimo del filtro de supresión de ruido disminuya al aumentar el valor de ganancia. 2. Aparato según la reivindicación 1, donde el analizador de señal de audio se configura para determinar los valores de filtro de supresión de ruido usando una decisión máxima en base a una pluralidad de valores no restringidos de filtro de supresión de ruido (220; 356a) y el valor mínimo de filtro de supresión de ruido, el valor mínimo de filtro de supresión de ruido que es igual para la pluralidad de bandas de la señal de audio.
    3. Aparato según la reivindicación 1, donde el analizador de señal de audio se configura para calcular el valor mínimo de filtro de supresión de ruido en base a:
    un valor predeterminado de supresión de ruido , y
    el valor de ganancia.
    4. Aparato según cualquiera de las reivindicaciones 1 a 3, donde el analizador de señal de audio se configura para calcular el valor mínimo de filtro de supresión de ruido usando una decisión mínima dependiente de un valor predeterminado de supresión de ruido y un cociente de un valor predeterminado de supresión de ruido y el valor de ganancia.
    5. Aparato según cualquiera de las reivindicaciones 1 a 4, donde el analizador de señal de audio está configurado para determinar el valor mínimo de filtro de supresión de ruido según
    una primera decisión mínima, la primera decisión mínima que depende de:
    un valor predeterminado de supresión de ruido , y
    un resultado de una segunda decisión mínima, el resultado de la segunda decisión mínima que depende de: una inversa del valor de ganancia, y
    un resultado de la decisión máxima, el resultado de la decisión máxima que depende de:
    la inversa de un valor límite predeterminado de distorsión, y
    un cociente del valor predeterminado de supresión de ruido y el valor de ganancia.
    6. Aparato según cualquiera de las reivindicaciones 1 a 5, donde el analizador de señal de audio se configura para analizar una banda de la pluralidad de bandas de la señal de audio para determinar si la banda tiene una primera característica de la señal de audio o una segunda característica de la señal de audio, donde la primera característica es diferente de la segunda característica, y para determinar los valores del filtro de supresión, cuando una segunda característica se ha determinado para la banda,
    de modo que los valores de filtro de supresión de ruido son iguales a un producto de un valor predeterminado de supresión de ruido y el valor de ganancia, cuando el valor de ganancia está entre 0 y 1, o
    de modo que los valores del filtro de supresión de ruido son iguales al valor predeterminado de supresión de ruido, cuando el valor de ganancia está entre 1 y el producto del valor predeterminado de supresión de ruido y un límite predeterminado de distorsión., o
    de modo que los valores de filtro de supresión de ruido son iguales al cociente del valor de ganancia y al límite predeterminado de distorsión, cuando el valor de ganancia está entre el producto del valor predeterminado de supresión de ruido y el límite predeterminado de distorsión, o
    de modo que los valores de filtro de supresión de ruido son iguales a 1, cuando el valor de ganancia es mayor que el límite predeterminado de distorsión.
    7. Aparato según cualquiera de las reivindicaciones 1 a 6, donde el analizador de señal de audio se configura para calcular una primera trama de la señal de audio, un primer valor de ganancia que da como resultado un primer valor mínimo de supresión de ruido,
    donde el analizador de señal de audio se configura para calcular, para una segunda trama de la señal de audio, un segundo valor de ganancia que da como resultado un segundo valor mínimo, no suavizado de filtro de supresión de ruido,
    donde la segunda trama sigue a la primera trama en el tiempo,
    donde el analizador de señal de audio se configura para calcular un valor de filtro mínimo de supresión de ruido no suavizado para la segunda trama usando el segundo valor mínimo de filtro de supresión de ruido no suavizado (358c) y el primer valor mínimo filtro de supresión.
    8. Aparato según cualquiera de las reivindicaciones anteriores, donde el aparato comprende un primer convertidor de tiempo-frecuencia (320a) que proporciona una representación en el dominio de frecuencia de la señal de audio que proporciona la pluralidad de bandas de la señal de audio, y
    donde el analizador de señal de audio está configurado para calcular un valor de filtro de supresión de ruido para una banda de la pluralidad de bandas de la señal de audio en base a:
    una o más bandas de la pluralidad de bandas de la señal de audio, y
    el valor mínimo de filtro de supresión de ruido, donde el valor mínimo de filtro de supresión se basa en:
    un valor predeterminado de supresión de ruido que es igual para cada banda de la pluralidad de bandas de la señal de audio, o un límite predeterminado de distorsión que es igual para una pluralidad de bandas de la señal de audio, y un valor derivado de la característica de la señal de audio, siendo el valor igual para cada banda de la pluralidad de bandas de la señal de audio.
    9. Aparato según una de las reivindicaciones anteriores, donde el analizador de señal de audio está configurado para calcular una información de amplitud de la señal de audio, y
    un valor de ganancia, como una característica de la señal de audio, en base a la información de amplitud y un valor predeterminado diana, al cual se ajusta la señal de audio a través del valor de ganancia.
    10. Aparato según la reivindicación 9, donde el analizador de señal de audio se configura para filtrar la señal de audio con un filtro psicoacústico (342) antes del cálculo de la información de amplitud,
    donde el filtro psicoacústico está configurado para comprender un primer valor de atenuación para un primer intervalo de frecuencia, y
    un segundo valor de atenuación para un segundo intervalo de frecuencia, y
    un tercer valor de atenuación para un tercer intervalo de frecuencia, y
    donde el filtro se configura de modo que el segundo intervalo de frecuencia está entre el primer intervalo de frecuencia y el tercer intervalo de frecuencia y
    donde el filtro se configura de modo que el segundo valor de atenuación es más pequeño que el primer valor de atenuación y el tercer valor de atenuación.
    11. Aparato según cualquiera de las reivindicaciones 1 a 10, donde el analizador de señal de audio comprende una unidad de detección de actividad de voz (340) que proporciona una primera información de actividad de voz de la primera trama de la señal de audio, y una segunda información de actividad de voz de la segunda trama de la señal de audio, y una unidad de memoria (346) para almacenar un valor previo de ganancia, y
    donde el analizador de señal de audio se configura para:
    estimar un valor de ganancia en base a una segunda trama de la señal de audio en la cual se ha detectado voz según la segunda información de actividad de voz, o
    mantener un valor de ganancia de una primera trama si no se ha detectado actividad de voz en la segunda trama según la segunda información de actividad de voz, cuando se ha detectado voz en la primera trama en base a la primera información de actividad de voz,
    donde la segunda trama sigue a la primera trama en el tiempo.
    12. Aparato según la reivindicación 1, donde el analizador de señal de audio está configurado para calcular el valor mínimo de filtro de supresión de ruido para una trama actual en base a:
    un valor derivado de una característica de la señal de audio calculada para una trama actual, y
    donde el analizador de señal de audio se configura para analizar la señal de audio para determinar el valor derivado de una característica de la señal de audio, y
    donde el filtro comprende una primera etapa de filtro y una segunda etapa de filtro, y
    donde la primera etapa de filtro se ajusta utilizando el valor derivado de la característica de la señal de audio, y donde la segunda etapa de filtro se ajusta según los valores de filtro de supresión de ruido.
    13. Aparato según la reivindicación 1, donde el analizador de señal de audio se configura para calcular el valor mínimo de filtro de supresión de ruido para una segunda trama en base a:
    un valor derivado de la característica de la señal de audio, calculada para una primera trama, y
    donde el filtro comprende una primera etapa de filtro (822) y una segunda etapa de filtro (824),
    donde la primera etapa de filtro se ajusta según los valores de filtro de supresión de ruido, y
    donde la segunda etapa de filtro se ajusta utilizando el valor derivado de la característica de la señal de audio, y donde el analizador de señal de audio se configura para analizar una salida de la primera etapa de filtro para determinar el valor derivado de una característica de la señal de audio, y
    donde la segunda trama sigue a la primera trama en el tiempo.
    14. Aparato según cualquiera de las reivindicaciones 1 a 13, donde el analizador de señal de audio se configura para determinar el valor de ganancia en base a:
    una información de actividad de voz y la señal de audio, o una información de actividad de voz y la señal de audio después de ser filtrada por los valores del filtro de supresión de ruido, y
    donde el analizador de señal de audio se configura para obtener la información de actividad de voz en base a la señal de audio, o donde el analizador de señal de audio está configurado para obtener la información de actividad de voz basado en la señal de audio después de haber sido filtrado por el filtro, o donde el analizador de la señal de audio está configurado de modo que una información de actividad de voz indique que no se utiliza voz presente para disminuir el valor de ganancia.
    15. Aparato según cualquiera de las reivindicaciones anteriores,
    donde el analizador de señal de audio (130; 830; 930) se configura para analizar la señal de audio en una secuencia de tramas que comprenden una primera trama y una segunda trama después de la primera trama en el tiempo, para determinar, para la primera trama, una primera pluralidad de valores de supresión de ruido, y para la segunda trama, una segunda pluralidad de valores de supresión de ruido,
    donde el analizador se configura para determinar la primera pluralidad de valores de filtro de supresión de ruido de manera que los valores de filtro de supresión de ruido de la primera pluralidad de valores de filtro de supresión de ruido sean mayores que o iguales a un primer valor mínimo de filtro de supresión de ruido (130b'; 240; 358c, 360a) determinado para la primera trama, y de modo que el primer valor mínimo de filtro de supresión de ruido dependa de una primera característica de la primera trama de la señal de audio (130c');
    donde el analizador se configura para determinar la segunda pluralidad de valores de filtro de supresión de ruido de manera que los valores de filtro de supresión de ruido de la segunda pluralidad de valores de filtro de supresión de ruido sean mayores que o iguales a un segundo valor mínimo de filtro de supresión de ruido (130b'; 240; 358c, 360a) determinado para la segunda trama, y de modo que el segundo valor mínimo de filtro de supresión de ruido dependa de una segunda característica de la segunda trama de la señal de audio (130c'); y
    donde el filtro (120; 310; 410; 820) se configura para filtrar la señal de audio en la secuencia de tramas, donde un primer filtro para la primera trama se ajusta basándose en la primera pluralidad de valores de supresión de ruido, y donde un segundo filtro para la segunda trama se ajusta basándose en la segunda pluralidad de valores de supresión de ruido, y
    donde el filtro (120; 310; 410; 820) se configura para filtrar la primera trama de la señal de audio con el primer filtro y para filtrar la segunda trama de la señal de audio con el segundo filtro.
    16. Procedimiento para procesar una señal de audio, que comprende:
    analizar una señal de audio para determinar una pluralidad de valores de filtro de supresión de ruido para una pluralidad de bandas de la señal de audio,
    determinar los valores de filtro de supresión de ruido de manera que un valor de filtro de supresión de ruido sea mayor que o igual a un valor mínimo de filtro de supresión de ruido, y
    de manera que el valor mínimo de filtro de supresión de ruido dependa de una característica de la señal de audio; y
    filtrar la señal de audio en base a los valores del filtro de supresión de ruido
    donde el análisis comprende el cálculo de un valor de ganancia a partir de una trama de la señal de audio como característica de la señal de audio, y el cálculo del valor mínimo del filtro de supresión de ruido de manera que el valor mínimo del filtro de supresión de ruido disminuya con un valor de ganancia creciente.
    17. Programa informático con un código de programa que, cuando el programa informático se ejecuta en un ordenador o un microcontrolador, hace que el ordenador o el microcontrolador lleve a cabo el procedimiento según la reivindicación 16.
ES17791008T 2016-10-18 2017-10-17 Aparato y procedimiento para procesar una señal de audio Active ES2845154T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16194467.3A EP3312838A1 (en) 2016-10-18 2016-10-18 Apparatus and method for processing an audio signal
PCT/EP2017/076483 WO2018073253A1 (en) 2016-10-18 2017-10-17 Apparatus and method for processing an audio signal

Publications (1)

Publication Number Publication Date
ES2845154T3 true ES2845154T3 (es) 2021-07-26

Family

ID=57184318

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17791008T Active ES2845154T3 (es) 2016-10-18 2017-10-17 Aparato y procedimiento para procesar una señal de audio

Country Status (11)

Country Link
US (2) US11056128B2 (es)
EP (2) EP3312838A1 (es)
JP (1) JP6857344B2 (es)
KR (1) KR102269396B1 (es)
CN (1) CN110036440B (es)
BR (1) BR112019007785A2 (es)
CA (1) CA3040201C (es)
ES (1) ES2845154T3 (es)
MX (1) MX2019004230A (es)
RU (1) RU2725017C1 (es)
WO (1) WO2018073253A1 (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7404664B2 (ja) * 2019-06-07 2023-12-26 ヤマハ株式会社 音声処理装置及び音声処理方法
EP3823315B1 (en) * 2019-11-18 2024-01-10 Panasonic Intellectual Property Corporation of America Sound pickup device, sound pickup method, and sound pickup program
CN112242147B (zh) * 2020-10-14 2023-12-19 福建星网智慧科技有限公司 一种语音增益控制方法及计算机存储介质
CN113113046B (zh) * 2021-04-14 2024-01-19 杭州网易智企科技有限公司 音频处理的性能检测方法、装置、存储介质及电子设备

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07235848A (ja) 1994-02-22 1995-09-05 Kokusai Denshin Denwa Co Ltd <Kdd> 自動利得制御増幅器
CN1155139A (zh) * 1995-06-30 1997-07-23 索尼公司 降低语音信号噪声的方法
US5975921A (en) 1997-10-10 1999-11-02 Berg Technology, Inc. High density connector system
JP4138290B2 (ja) 2000-10-25 2008-08-27 松下電器産業株式会社 ズームマイクロホン装置
JP4256631B2 (ja) 2002-06-03 2009-04-22 パナソニック株式会社 オートゲインコントロール装置
JP2005184154A (ja) 2003-12-16 2005-07-07 Sony Corp 自動利得制御装置及び自動利得制御方法
US7454010B1 (en) * 2004-11-03 2008-11-18 Acoustic Technologies, Inc. Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation
US7669611B2 (en) 2005-07-19 2010-03-02 Joe Lomicka Motorized fluid control valve with safety device
US7555075B2 (en) * 2006-04-07 2009-06-30 Freescale Semiconductor, Inc. Adjustable noise suppression system
JP2008148179A (ja) 2006-12-13 2008-06-26 Fujitsu Ltd 音声信号処理装置および自動利得制御装置における雑音抑圧処理方法
US7742746B2 (en) * 2007-04-30 2010-06-22 Qualcomm Incorporated Automatic volume and dynamic range adjustment for mobile audio devices
US8712762B2 (en) * 2007-07-27 2014-04-29 Vereniging Voor Christelijk Hoger Onderwijs, Wetenschappelijk Onderzoek En Patiëntenzor Noise suppression in speech signals
CN101802910B (zh) * 2007-09-12 2012-11-07 杜比实验室特许公司 利用话音清晰性的语音增强
US8015002B2 (en) 2007-10-24 2011-09-06 Qnx Software Systems Co. Dynamic noise reduction using linear model fitting
US8326617B2 (en) * 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
DE102008039329A1 (de) * 2008-01-25 2009-07-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Berechnung von Steuerinformationen für ein Echounterdrückungsfilter und Vorrichtung und Verfahren zur Berechnung eines Verzögerungswerts
JP5071346B2 (ja) * 2008-10-24 2012-11-14 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
JP5526524B2 (ja) * 2008-10-24 2014-06-18 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
US9049503B2 (en) * 2009-03-17 2015-06-02 The Hong Kong Polytechnic University Method and system for beamforming using a microphone array
US8473287B2 (en) * 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
WO2012074503A1 (en) * 2010-11-29 2012-06-07 Nuance Communications, Inc. Dynamic microphone signal mixer
US9137600B2 (en) * 2012-02-16 2015-09-15 2236008 Ontario Inc. System and method for dynamic residual noise shaping
GB201401689D0 (en) 2014-01-31 2014-03-19 Microsoft Corp Audio signal processing
US9837102B2 (en) * 2014-07-02 2017-12-05 Microsoft Technology Licensing, Llc User environment aware acoustic noise reduction
JP6252783B2 (ja) 2014-08-29 2017-12-27 マツダ株式会社 車両用歩行者検出装置

Also Published As

Publication number Publication date
MX2019004230A (es) 2019-07-10
CA3040201A1 (en) 2018-04-26
US11056128B2 (en) 2021-07-06
WO2018073253A1 (en) 2018-04-26
JP2019537074A (ja) 2019-12-19
US20190267022A1 (en) 2019-08-29
KR102269396B1 (ko) 2021-06-24
CN110036440A (zh) 2019-07-19
EP3312838A1 (en) 2018-04-25
BR112019007785A2 (pt) 2019-07-09
US20210233551A1 (en) 2021-07-29
EP3529805B1 (en) 2020-11-18
EP3529805A1 (en) 2019-08-28
CA3040201C (en) 2021-06-08
RU2725017C1 (ru) 2020-06-29
KR20190065424A (ko) 2019-06-11
CN110036440B (zh) 2023-09-29
US11664040B2 (en) 2023-05-30
JP6857344B2 (ja) 2021-04-14

Similar Documents

Publication Publication Date Title
ES2845154T3 (es) Aparato y procedimiento para procesar una señal de audio
US9361901B2 (en) Integrated speech intelligibility enhancement system and acoustic echo canceller
KR101461141B1 (ko) 잡음 억제기를 적응적으로 제어하는 시스템 및 방법
KR102060208B1 (ko) 적응적 음성 명료도 처리기
US9137611B2 (en) Method, system and computer program product for estimating a level of noise
US20200154202A1 (en) Method and electronic device for managing loudness of audio signal
US9666206B2 (en) Method, system and computer program product for attenuating noise in multiple time frames
US20130054233A1 (en) Method, System and Computer Program Product for Attenuating Noise Using Multiple Channels
EP3830823A1 (en) Forced gap insertion for pervasive listening
EP2816818B1 (en) Sound field spatial stabilizer with echo spectral coherence compensation
US11902747B1 (en) Hearing loss amplification that amplifies speech and noise subsignals differently
EP2816817B1 (en) Sound field spatial stabilizer with spectral coherence compensation
EP2816816A1 (en) Sound field spatial stabilizer with structured noise compensation