ES2741009T3 - Codificador de audio y método para codificar una señal de audio - Google Patents

Codificador de audio y método para codificar una señal de audio Download PDF

Info

Publication number
ES2741009T3
ES2741009T3 ES16714448T ES16714448T ES2741009T3 ES 2741009 T3 ES2741009 T3 ES 2741009T3 ES 16714448 T ES16714448 T ES 16714448T ES 16714448 T ES16714448 T ES 16714448T ES 2741009 T3 ES2741009 T3 ES 2741009T3
Authority
ES
Spain
Prior art keywords
signal
noise
audio
audio encoder
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16714448T
Other languages
English (en)
Inventor
Tom Bäckström
Emma Jokinen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2741009T3 publication Critical patent/ES2741009T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Codificador (100) de audio para proporcionar una representación (102) codificada con base en una señal (104) de audio, en el que el codificador (100) de audio se configura para obtener una información (106) de ruido que describe un ruido incluido en la señal (104) de audio, y en el que el codificador (100) de audio se configura para codificar adaptativamente la señal (104) de audio en dependencia de la información (106) de ruido, de tal forma que la precisión de codificación es mayor para partes de la señal (104) de audio que están menos afectadas por el ruido incluido en la señal (104) de audio que para partes de la señal (104) de audio que están más afectadas por el ruido incluido en la señal (104) de audio; en el que la señal (104) de audio es una señal de voz, y en el que el codificador (100) de audio se configura para derivar una señal (120) residual de la señal (104) de voz y para codificar la señal (120) residual utilizando un libro (122) de códigos; en el que el codificador (100) de audio se configura para seleccionar una entrada del libro de códigos de una pluralidad de entradas de un libro (122) de códigos para codificar la señal (120) residual en dependencia de la información (106) de ruido; en el que el codificador (100) de audio se configura para seleccionar la entrada del libro de códigos utilizando un filtro de ponderación perceptual (W); en el que el codificador (100) de audio se configura para ajustar el filtro de ponderación perceptual (W) de tal forma que partes de la señal (104) de voz que están menos afectadas por el ruido se ponderan más para la selección de la entrada del libro de códigos que partes de la señal (104) de voz que están más afectadas por el ruido; en el que el codificador (100) de audio se configura para seleccionar la entrada del libro de códigos para la señal (120) residual de tal forma que se reduce o se minimiza un error de cuantificación ponderado, sintetizado de la señal (126) residual ponderada con el filtro de ponderación perceptual W.

Description

DESCRIPCIÓN
Codificador de audio y método para codificar una señal de audio
Realizaciones se refieren a un codificador de audio para proporcionar una representación codificada con base en una señal de audio. Realizaciones adicionales se refieren a un método para proporcionar una representación codificada con base en una señal de audio. Algunas realizaciones se refieren a una supresión de ruido de extremo lejano, de baja complejidad, de bajo retardo para códecs perceptuales de voz y audio.
Un problema actual con códecs de voz y audio es que se utilizan en entornos adversos donde la señal de entrada acústica se distorsiona por ruido de fondo y otras distorsiones. Esto provoca varios problemas. Ya que el códec ahora tiene que codificar tanto la señal deseada como las distorsiones indeseadas, el problema de codificación es más complicado debido a que la señal ahora consiste de dos fuentes y que disminuirá la calidad de codificación. Pero incluso si se puede codificar la combinación de los dos cursos con la misma calidad como una sola señal limpia, la parte de voz aún será de menor calidad que la señal limpia. La calidad de codificación perdida no sólo es molesta de forma perceptual sino, de forma importante, también incrementa el esfuerzo de escucha, y, en el peor de los casos, disminuye la inteligibilidad o incrementa el esfuerzo de escucha de la señal decodificada.
El documento WO 2005/031709 A1 muestra un método de codificación de voz que aplica reducción de ruido al modificar la ganancia del libro de códigos. En detalle, una señal acústica que contiene un componente de voz y un componente de ruido se codifica al utilizar un análisis a través de método de síntesis, en donde para codificar la señal acústica se compara una señal sintetizada con la señal acústica durante un intervalo de tiempo, dicha señal sintetizada que se describe al utilizar un libro de códigos fijo y una ganancia fija asociada.
El documento US 2011/076968 A1 muestra un dispositivo de comunicación con codificación de voz de ruido reducido. El dispositivo de comunicación incluye una memoria, una interfaz de entrada, un módulo de procesamiento, y un transmisor. El módulo de procesamiento recibe una señal digital de la interfaz de entrada, en donde la señal digital incluye un componente de señal digital deseado y un componente de señal digital no deseado. El módulo de procesamiento identifica uno de una pluralidad de libros de códigos con base en el componente de señal digital no deseado. El módulo de procesamiento entonces identifica una entrada del libro de códigos de la pluralidad de libros de códigos con base en el componente de señal digital deseado para producir una entrada de libro de códigos seleccionada. El módulo de procesamiento entonces genera una señal codificada con base en la entrada del libro de códigos seleccionada, en donde la señal codificada incluye una representación sustancialmente no atenuada del componente de señal digital deseado y una representación atenuada del componente de señal digital no deseado.
El documento US 2001/001140 A1 muestra un enfoque modular para mejora de voz con una aplicación para codificación de voz. Un codificador de voz separa voz digitalizada de entrada en partes de componente en un intervalo de forma por intervalos. Las partes de componente incluyen componentes de ganancia, componentes de espectro y componentes de señal de excitación. Un conjunto de sistemas de mejora de voz dentro del codificador de voz procesan las partes de componente de tal forma que cada parte de componente tiene su propio proceso de mejora de voz individual. Por ejemplo, un proceso de mejora de voz se puede aplicar para analizar los componentes de espectro y otro proceso de mejora de voz se puede utilizar para analizar los componentes de señal de excitación. El documento US 5.680.508 A da a conocer una mejora de codificación de voz en ruido de fondo para codificador de voz de baja velocidad. Un sistema de codificación de voz emplea mediciones de características robustas de cuadros de voz cuya distribución no se afecta fuertemente por ruido/niveles para tomar decisiones de voz para voz de entrada que se produce en un entorno ruidoso. El análisis de programación lineal de las características robustas y factores de ponderación respectivos se utilizan para determinar una combinación lineal óptima de estas características. Los vectores de voz de entrada se hacen coincidir con un vocabulario de palabras de código a fin de seleccionar la palabra de código óptimamente coincidente, correspondiente. Se utiliza cuantificación vectorial adaptativa en la cual un vocabulario de palabras obtenido en un entorno silencioso se actualiza con base en una estimación de ruido de un entorno ruidoso en el cual se produce la voz de entrada, y entonces se busca el vocabulario “ruidoso” para la mejor coincidencia con un vector de voz de entrada. El índice de palabra de código limpio, correspondiente entonces se selecciona para transmisión y para síntesis en el extremo receptor.
El documento US 2006/116874 A1 muestra un pos-filtrado dependiente del ruido. Un método implica proporcionar un filtro adecuado para reducción de distorsión provocada por codificación de voz, estimar ruido acústico en la señal de voz, adaptar el filtro en respuesta al ruido acústico estimado para obtener un filtro adaptado, y aplicar el filtro adaptado a la señal de voz para reducir ruido acústico y distorsión provocada por codificación de voz en la señal de voz.
El documento US 6.385.573 B1 muestra una compensación de inclinación adaptativa para voz sintetizada residual. Un códec de voz de múltiples velocidades soporta una pluralidad de modos de velocidad de bits de codificación al seleccionar adaptativamente modos de velocidad de bits de codificación para hacer coincidir restricciones de canal de comunicación. En modos de codificación de velocidad de bits más alta, una representación precisa de voz a través de CELP (predicción lineal excitada por código) y otros parámetros de modelación asociados se generan para reproducción y decodificación de mayor calidad. Para lograr alta calidad en modos de codificación de menor velocidad de bits, el codificador de voz separa la forma de onda estricta que coincide con los criterios de codificadores CELP regulares y se esfuerza para identificar características perceptuales significativas de la señal de entrada.
El documento US 5.845.244 A se refiere a un nivel de enmascaramiento de ruido adaptativo en análisis por síntesis que emplea ponderación perceptual. En un codificador de voz de análisis por síntesis que emplea un filtro de ponderación perceptual de corto plazo, los valores de los coeficientes de expansión espectral se adaptan dinámicamente con base en los parámetros espectrales obtenidos durante análisis de predicción lineal de corto plazo. Los parámetros espectrales que sirven en esta adaptación pueden comprender en particular parámetros representativos de la inclinación total del espectro de la señal de voz, y parámetros representativos del carácter resonante del filtro de síntesis de corto plazo.
El documento US 4.133.976 A muestra una codificación de señal de voz predictiva con efectos de ruido reducidos. Un procesador predictivo de señales de voz ofrece un filtro adaptativo en una red de retroalimentación alrededor del cuantificador. El filtro adaptativo combina esencialmente la señal de error de cuantificación, las señales de parámetros de predicción relacionadas formantes y la señal de diferencia para concentrar el ruido de error de cuantificación en picos espectrales que corresponden a las porciones formantes variables en el tiempo del espectro de voz por lo que el ruido de cuantificación se enmascara por los formantes de señal de voz.
El documento WO 9425959 A1 muestra el uso de un modelo auditivo para mejorar calidad o disminuir la velocidad de bits de sistemas de síntesis de voz. Se reemplaza un filtro de ponderación con un modelo auditivo que permite la búsqueda de vector de código estoscástico óptimo en el dominio psicoacústico. Un algoritmo, que se ha nombrado PERCELP (para predicción lineal excitada de libros de códigos aleatorio, perceptivamente mejorada), se da a conocer que produce voz que es de calidad considerablemente mejor que aquella obtenida con un filtro de ponderación.
El documento US 2008/312916 A1 muestra un sistema de mejora de inteligibilidad de receptor, que procesa una señal de voz de entrada para generar una señal inteligente mejorada. En el dominio de la frecuencia, el espectro FFT de la voz recibida del extremo lejano se modifica según el espectro LPC del ruido de fondo de local para generar una señal inteligente mejorada. En el dominio del tiempo, la voz se modifica según los coeficientes LPC del ruido para generar una señal inteligente mejorada.
El documento US 2013/030800 1A muestra un procesador de inteligibilidad de voz adaptativa, que identifica de forma adaptativa y rastrea las ubicaciones de formantes, permitiendo así que se enfaticen los formantes conforme cambian. Como resultado, estos sistemas y métodos pueden mejorar inteligibilidad de extremo cercano, incluso en entornos ruidosos.
El documento US 2002/116182 A1 da a conocer un método para preparar una señal de voz para la codificación. El método comprende determinar si en contenido espectral de una señal de voz de entrada es representativo de una característica espectral definida (por ejemplo, una inclinación característica definida). Un componente de filtro específico de frecuencia de un filtro de ponderación se controla con base en la determinación del contenido espectral de la señal de voz o/y su ubicación en el codificador. Un componente de filtro de ponderación de núcleo del filtro de ponderación puede mantenerse independientemente del contenido espectral de la señal de voz.
El documento US 2009/265167 A1 da a conocer un dispositivo de codificación de audio que puede ajustar una inclinación de espectro de un ruido cuantificado sin cambiar el peso formante. El dispositivo incluye un HPF que extrae un componente de alta frecuencia de la región de frecuencia de una señal de audio de entrada, una unidad de cálculo de nivel de energía de alta frecuencia que calcula un nivel de energía del componente de alta frecuencia en una unidad de marco, un LPF que extrae un componente de baja frecuencia de la región de frecuencia de la señal de audio de entrada, una unidad de cálculo de nivel de baja energía que calcula un nivel de energía de un componente de baja frecuencia en una unidad de marco, una unidad de cálculo de coeficiente de corrección de inclinación multiplica la diferencia entre la SNR del componente de alta frecuencia y la SNR del componente de baja frecuencia ingresada desde un adicionador por una constante y añade un componente de sesgo al producto para calcular un coeficiente de corrección de inclinación. El coeficiente de corrección de inclinación se usa para ajustar la inclinación del espectro de un ruido cuantificado.
En [Atal, Bishnu S., y Manfred R. Schroeder. “Predictive coding of speech signals and subjective error criteria”. Acoustics, Speech and Signal Processing, IEEE Transactions on 27,3 (1979): 247-254] se describen y evalúan métodos para reducir la distorsión subjetiva en codificadores predictivos para señales de voz. Se obtiene calidad de voz mejorada: 1) por remoción eficiente de estructura de voz redundante relacionada con formante y tono antes de la cuantificación, y 2) por enmascaramiento eficiente del ruido de cuantificador por la señal de voz.
En [Chen, Juin-Hwey y Allen Gersho. “Real-time vector APC speech coding at 4800 bps with adaptive postfiltering”. Acoustics, Speech and Signal Processing, IEEE International Conference on ICASSP'87. Vol. 12, IEEe , 1987] se presenta un codificador de voz APC vectorial mejorado (VAPC), que combina APC con cuantificación vectorial e incorpora análisis por síntesis, ponderación de ruido perceptual, y pos-filtrado adaptativo.
Es el objeto de la presente invención proporcionar un concepto para reducir un esfuerzo de escucha o mejorar una calidad de señal o incrementar una inteligibilidad de una señal decodificada cuando la señal de entrada acústica se distorsiona por ruido de fondo y otras distorsiones.
Este objeto se resuelve por las reivindicaciones independientes.
Se abordan implementaciones ventajosas por las reivindicaciones dependientes.
Realizaciones proporcionan un codificador de audio para proporcionar una representación codificada con base en una señal de audio. El codificador de audio se configura para obtener una información de ruido que describe un ruido incluido en la señal de audio, en donde el codificador de audio se configura para codificar de forma adaptativa la señal de audio en dependencia de la información de ruido, de tal forma que la precisión de codificación es más alta para partes de la señal de audio que están menos afectadas por el ruido incluido en la señal de audio que para partes de la señal de audio que están más afectadas por el ruido incluido en la señal de audio.
Según el concepto de la presente invención, el codificador de audio codifica de forma adaptativa la señal de audio en dependencia de la información de ruido que describe el ruido incluido en la señal de audio, a fin de obtener una precisión de codificación más alta para aquellas partes de la señal de audio, que están menos afectadas por el ruido (por ejemplo, que tienen una mayor relación señal a ruido), que para partes de la señal de audio, que están más afectadas por el ruido (por ejemplo, que tienen una menor relación señal a ruido).
Los códecs de comunicación operan frecuentemente en entornos donde la señal deseada se daña por ruido de fondo. Realizaciones dadas a conocer en el presente documento abordan situaciones donde la señal del lado de emisor/codificador tiene ruido de fondo ya antes de la codificación.
Por ejemplo, según algunas realizaciones, al modificar la función objetiva perceptual de un códec la precisión de codificación de aquellas porciones de la señal que tienen mayor relación señal a ruido (SNR) se puede incrementar, reteniendo de esta forma la calidad de las porciones libres de ruido de la señal. Al proteger las porciones de alta SNR de la señal, se puede mejorar una inteligibilidad de la señal transmitida y se puede disminuir el esfuerzo de escucha. En tanto que se implementan algoritmos de supresión de ruido convencionales como un bloque de pre­ procesamiento al códec, el enfoque actual tiene dos ventajas distintas. Primero, por el ruido conjunto se pueden evitar efectos en tándem de supresión y codificación. Segundo, ya que el algoritmo propuesto se puede implementar como una modificación de la función objetiva perceptual, es de muy baja complejidad computacional. Además, a menudo los códecs de comunicación estiman ruido de fondo para generadores de ruido de confort en cualquier caso, por lo cual ya está disponible una estimación de ruido en el códec y se puede utilizar (como información de ruido) sin ningún costo computacional adicional.
Realizaciones adicionales se refieren a un método para proporcionar una representación codificada con base en una señal de audio. El método comprende obtener una información de ruido que describe el ruido incluido en la señal de audio y codificar adaptativamente la señal de audio en dependencia de la información de ruido, de tal forma que la precisión de codificación es más alta para partes de la señal de audio que están menos afectadas por el ruido incluido en la señal de audio que para partes de la señal de audio que están más afectadas por el ruido incluido en la señal de audio.
Realizaciones adicionales se refieren a un flujo de datos que transporta una representación codificada de una señal de audio, en donde la representación codificada de la señal de audio codifica adaptativamente la señal de audio en dependencia de una información de ruido que describe un ruido incluido en la señal de audio, de tal forma que la precisión de codificación es más alta para partes de la señal de audio que están menos afectadas por el ruido incluido en la señal de audio que para partes de la señal de audio que están más afectadas por el ruido incluido en la señal de audio.
Las realizaciones de la presente invención se describen en el presente documento haciendo referencia a las dibujos adjuntos:
la figura 1 muestra un diagrama de bloques esquemático de un codificador de audio para proporcionar una representación codificada con base en una señal de audio, según una realización;
la figura 2A muestra un diagrama de bloques esquemático de un codificador de audio para proporcionar una representación codificada con base en una señal de voz, según una realización;
la figura 2B muestra un diagrama de bloques esquemático de un determinante de entrada del libro de códigos, según una realización;
la figura 3 muestra un diagrama de una magnitud de una estimación de ruido y un espectro reconstruido para el ruido graficado con respecto a la frecuencia.
la figura 4 muestra un diagrama de una magnitud de ajustes de predicción lineal para el ruido para diferentes órdenes de predicción graficados con respecto a la frecuencia.
la figura 5 muestra un diagrama de una magnitud de un inverso de un filtro de ponderación original y magnitudes de inversos de filtros de ponderación propuestos que tienen diferentes órdenes de predicción graficados con respecto a la frecuencia; y
la figura 6 muestra un diagrama de flujo de un método para proporcionar una representación codificada con base en una señal de audio, según una realización.
Elementos iguales o equivalentes o elementos con funcionalidad igual o equivalente se denotan en la siguiente descripción por números de referencia iguales o equivalentes.
En la siguiente descripción, se expone una pluralidad de detalles para proporcionar una explicación más completa de realizaciones de la presente invención. Sin embargo, será evidente para un experto en la técnica que las realizaciones de la presente invención se pueden practicar sin estos detalles específicos. En otros casos, se muestran dispositivos y estructuras bien conocidas en forma de diagrama de bloques en lugar de en detalle a fin de evitar complicar realizaciones de la presente invención. Además, las características de las diferentes realizaciones descritas a continuación en el presente documento se pueden combinar entre sí a menos que se indique específicamente lo contrario.
La figura 1 muestra un diagrama de bloques esquemático de un codificador 100 de audio para proporcionar una representación 102 codificada (o señal de audio codificada) con base en una señal 104 de audio. El codificador 100 de audio se configura para obtener una información 106 de ruido que describe un ruido incluido en la señal 104 de audio para codificar adaptativamente la señal 104 de audio en dependencia de la información 106 de ruido de tal forma que la precisión de codificación es mayor para partes de la señal 104 de audio que están menos afectadas por el ruido incluido en la señal 104 de audio que para partes de la señal de audio que están más afectadas por el ruido incluido en la señal 104 de audio.
Por ejemplo, el codificador 100 de audio puede comprender un estimador 110 de ruido (o determinante de ruido o analizador de ruido) y un codificador 112. El estimador 110 de ruido se puede configurar para obtener la información 106 de ruido que describe el ruido incluido en la señal 104 de audio. El codificador 112 se puede configurar para codificar adaptativamente la señal 104 de audio en dependencia de la información 106 de ruido de tal forma que la precisión de codificación es mayor para partes de la señal 104 de audio que están menos afectadas por el ruido incluido en la señal 104 de audio que para partes de la señal 104 de audio que están más afectadas por el ruido incluido en la señal 104 de audio.
El estimador 110 de ruido y el codificador 112 se pueden implementar por (o utilizando) un aparato de hardware tal como, por ejemplo, un circuito integrado, un arreglo de compuertas programables en el campo, un microprocesador, una ordenador programable o un circuito electrónico.
En realizaciones, el codificador 100 de audio se puede configurar para codificar de forma simultánea la señal 104 de audio y reducir el ruido en la representación 102 codificada de la señal 104 de audio (o señal de audio codificada) al codificar adaptativamente la señal 104 de audio en dependencia de la información 106 de ruido.
En realizaciones, el codificador 100 de audio se puede configurar para codificar la señal 104 de audio utilizando una función objetiva perceptual. La función objetiva perceptual se puede ajustar (o modificar) en dependencia de la información 106 de ruido, que codifica de esta forma adaptativamente la señal 104 de audio en dependencia en la información 106 de ruido. La información 106 de ruido, por ejemplo, puede ser una relación señal a ruido o una forma estimada del ruido incluido en la señal 104 de audio.
Las realizaciones de la presente invención intentan disminuir el esfuerzo de escucha o incrementar respectivamente la inteligibilidad. En el presente documento es importante indicar que las realizaciones pueden no en general proporcionar la representación más precisa posible de la señal de entrada pero intentan transmitir estas partes de la señal de tal forma que se optimiza el esfuerzo de escucha o inteligibilidad. Específicamente, las realizaciones pueden cambiar el timbre de la señal, pero de tal forma que la señal transmitida reduce el esfuerzo de escucha o es mejor para inteligibilidad que la señal transmitida de forma precisa.
Según algunas realizaciones, se modifica la función objetiva perceptual del códec. En otras palabras, las realizaciones no suprimen explícitamente ruido, sino cambian el objetivo de tal forma que la precisión es mayor en partes de la señal donde es mejor la relación señal a ruido. De forma equivalente, las realizaciones disminuyen la distorsión de señal en aquellas partes donde la SNR es alta. Los oyentes humanos pueden entonces entender más fácilmente la señal. Aquellas partes de la señal que tienen baja SNR por lo tanto se transmiten con menos precisión pero, ya que contienen principalmente ruido de todas formas, no es importante codificar estas partes de forma precisa. En otras palabras, al enfocar la precisión en partes de alta SNR, las realizaciones mejoran implícitamente la SNR de las partes de voz en tanto que disminuyen la SNR de las partes de ruido.
Se puede implementar o aplicar realizaciones en cualquier códec de voz de audio, por ejemplo, en estos códecs que emplean un modo perceptual. En efecto, según algunas realizaciones la función de ponderación perceptual se puede modificar (o ajustar) con base en la característica de ruido. Por ejemplo, la envolvente espectral promedio de la señal de ruido se puede estimar y utilizar para modificar la función objetiva perceptual.
Realizaciones dadas a conocer en el presente documento son aplicables de manera preferente a códecs de voz del tipo CELP (CELP = predicción lineal excitada por código) u otros códecs en los cuales el modelo perceptual se puede expresar por un filtro de ponderación. Sin embargo se pueden utilizar realizaciones en códecs tipo TCX (TCX = excitación codificada por transformada) así como otros códecs en el dominio de la frecuencia. Además, un caso de uso preferido de las realizaciones es codificación de voz pero también se pueden emplear realizaciones de forma más general en cualquier códecs de voz y audio. Ya que la ACELP (ACELP = predicción lineal excitada por código algebraico) es una aplicación convencional, se describirá en detalle más adelante la aplicación de realizaciones en ACELP. La aplicación de realizaciones en otros códecs, que incluyen códecs en el dominio de la frecuencia entonces será evidente para aquellos expertos en la técnica.
Un enfoque convencional para supresión de ruido en códecs de voz y audio es aplicarla como un bloque de pre­ procesamiento separado con el propósito de retirar ruido antes de codificación. Sin embargo, al separarlo para separar lo que es hay dos desventajas principales. Primero, ya que el supresor de ruido generalmente no sólo retira ruido sino también distorsiona la señal deseada, el códec por lo tanto intentará codificar una señal distorsionada de forma precisa. El códec por lo tanto tendrá un objetivo erróneo y se pierde la eficiencia y precisión. Esto también se puede ver como un caso de problema en tándem donde bloques posteriores producen errores independientes que se suman. Mediante codificación y supresión de ruido conjunto las realizaciones evitan problemas en tándem. Segundo, ya que el supresor de ruido se implementa convencionalmente en un bloque de pre-procesamiento separado, el retardo y la complejidad computacional son altos. En contraste con eso, ya que según las realizaciones del supresor de ruido se incorpora en el códec se puede aplicar con retardo y complejidad computacional muy bajos. Esto será especialmente benéfico a dispositivos de bajo costo que no tienen la capacidad computacional para supresión de ruido convencional.
La descripción analizará de forma adicional la aplicación en el contexto del códec AMR-WB (AMR-WB = banda ancha adaptativa de múltiples velocidades), debido a que es a la fecha de redacción el códec de voz más comúnmente utilizado. Las realizaciones se pueden aplicar fácilmente en la parte superior de otros códecs de voz también, tal como servicios de voz mejorados 3GPP o G.718. Se señala que un uso preferido de realizaciones es un complemento a normas existentes ya que las realizaciones se pueden aplicar a códecs sin cambiar el formato de flujo de bits.
La figura 2A muestra un diagrama de bloques esquemático de un codificador 100 de audio para proporcionar una representación 102 codificada con base en la señal 104 de voz, según una realización. El codificador 100 de audio se puede configurar para derivar una señal 120 residual de la señal 104 de voz y para codificar la señal 120 residual utilizando un libro 122 de códigos. En detalle, el codificador 100 de audio se puede configurar para seleccionar una entrada del libro de códigos de una pluralidad de entradas del libro de códigos del libro 122 de códigos para codificar la señal 120 residual en dependencia de la información 106 de ruido. Por ejemplo, el codificador 100 de audio puede comprender un determinante 124 de entrada del libro de códigos que comprende el libro 122 de códigos, donde el determinante 124 de entrada del libro de códigos se puede configurar para seleccionar una entrada del libro de códigos de una pluralidad de entradas del libro de códigos del libro 122 de códigos para codificar la señal 120 residual en dependencia de la información 106 de ruido, obteniendo así un residuo cuantificado 126.
El codificador 100 de audio se puede configurar para estimar una contribución de un tramo vocal en la señal 104 de voz y para retirar la contribución estimada del tramo vocal de la señal 104 de voz a fin de obtener la señal 120 residual. Por ejemplo, el codificador 100 de audio puede comprender un estimador 130 de tramo vocal y un removedor de tramo vocal 132. El estimador 130 de tramo vocal se puede configurar para recibir la señal 104 de voz, para estimar una contribución del tramo vocal en la señal 104 de voz y para proporcionar la contribución 128 estimada del tramo vocal en la señal 104 de voz al removedor de tramo vocal 132. El removedor de tramo vocal 132 se puede configurar para retirar la contribución 128 estimada del tramo vocal de la señal 104 de voz a fin de obtener la señal 120 residual. La contribución del tramo vocal en la señal 104 de voz se puede estimar, por ejemplo, utilizando predicción lineal.
El codificador 100 de audio se puede configurar para proporcionar el residuo 126 cuantificado y la contribución 128 estimada del tramo vocal (o parámetros de filtro que describen la contribución 128 estimada del tramo 104 vocal) como representación codificada con base en la señal de voz (o señal de voz codificada).
La figura 2B muestra un diagrama de bloques esquemático del determinante 124 de entrada del libro de códigos según una realización. El determinante 124 de entrada del libro de códigos puede comprender un optimizador 140 configurado para seleccionar la entrada del libro de códigos utilizando un filtro de ponderación perceptual W. Por ejemplo, el optimizador 140 se puede configurar para seleccionar la entrada del libro de códigos para la señal 120 residual de tal forma que se reduce (o se minimiza) un error de cuantificación ponderado, sintetizado de la señal 126 residual ponderada con el filtro de ponderación perceptual W. Por ejemplo, el optimizador 130 se puede configurar para seleccionar la entrada de libro de códigos utilizando la función de distancia:
Figure imgf000007_0001
en donde x representa la señal residual, en donde x representa la señal residual cuantificada, donde W representa el filtro de ponderación perceptual, y en donde H representa un filtro de síntesis de tramo vocal cuantificado. Por lo tanto, W y H pueden ser matrices de convolución.
El determinante 124 de entrada del libro de códigos puede comprender un determinante de filtro de síntesis de tramo 144 vocal cuantificado configurado para determinar un filtro de síntesis de tramo vocal cuantificado H de la contribución estimada del tramo vocal A(z).
Además, el determinante 124 de entrada del libro de códigos puede comprender un ajustador 142 de filtro de ponderación perceptual configurado para ajustar el filtro de ponderación perceptual W de tal forma que se reduce un efecto del ruido en la selección de la entrada del libro de códigos. Por ejemplo, el filtro de ponderación perceptual W se puede ajustar de tal forma que partes de la señal de voz que están menos afectadas por el ruido se ponderan más para la selección de la entrada del libro de códigos que las partes de la señal de voz que están más afectadas por el ruido. Además, (o de forma alternativa), el filtro de ponderación perceptual W se puede ajustar de tal forma que se reduce un error entre las partes de la señal 120 residual que están menos afectadas por el ruido y las partes correspondientes de la señal del residuo 126 cuantificado.
El ajustador 142 de filtro de ponderación perceptual se puede configurar para obtener coeficientes de predicción lineal de la información (106) de ruido, para determinar de esta forma un ajuste de predicción lineal (A_BCK), y para utilizar el ajuste de predicción lineal (A_BCK) en el filtro de ponderación perceptual (W). Por ejemplo, el ajustador 142 de filtro de ponderación perceptual se puede configurar para ajustar el filtro de ponderación perceptual W utilizando la fórmula:
Figure imgf000007_0002
en donde W representa el filtro de ponderación perceptual, en donde A representa un modelo de tramo vocal, Abck representa el ajuste de predicción lineal, Hde-emf representa un filtro de des-énfasis, 71 = 0,92, y 72 es un parámetro con el cual es ajustable una cantidad de supresión de ruido. Por lo tanto, Hde-emf puede ser igual a 1/(1-0,68z-1). En otras palabras, el códec AMR-WB utiliza predicción lineal excitada por código algebraico (ACELP) para parametrizar la señal 104 de voz. Esto significa que la primera contribución del tramo vocal, A(z), se estima con predicción lineal y se remueve y entonces la señal residual se parametriza utilizando un libro de códigos algebraico. Para encontrar la mejor entrada del libro de códigos, se puede reducir al mínimo una distancia perceptual entre el residuo original y las entradas del libro de códigos. La función de distancia se puede describir como 2
WH ( x - x ) A
donde x y x son los residuos original y cuantificado, W y H son las matrices de convolución que corresponden, respectivamente, a H ( z )
Figure imgf000007_0003
e| f¡uro sfntes¡s ¿a tramo vocal cuantificado y W(z), la m * ) = Mz/Yí)Hde_,m£ m ponderación perceptual, que se elige convencionalmente como con 7 i = 0,92. El residuo x se ha calculado con el filtro de análisis de tramo vocal cuantificado.
En un escenario de aplicación, puede estar presente ruido de extremo lejano aditivo en la señal de voz entrante. Por lo tanto, la señal es y(t) = s(t) n(t). En este caso, tanto el modelo de tramo vocal, A(z), como el residuo original contienen ruido. Comenzando de la simplificación de ignorar el ruido en el modelo de tramo vocal y enfocándose en el ruido en el residuo, la idea (según una realización) es guiar la ponderación perceptual de tal forma que los efectos del ruido aditivo se reducen en la selección del residuo. Mientras que normalmente se desea que el error entre el residuo original y el cuantificado se asemeje a la envolvente espectral de voz, según realizaciones se reduce el error en la región que se considera más robusta al ruido. En otras palabras, según realizaciones, los componentes de frecuencia que están menos dañados por el ruido se cuantifican con menos error mientras que los componentes con menores magnitudes que es probable que contengan errores del ruido tienen un factor de ponderación inferior en el proceso de cuantificación.
Para tomar en cuenta el efecto del ruido en la señal deseada, primero se necesita una estimación de la señal de ruido. La estimación de ruido es un tema clásico para el cual existen muchos métodos. Algunas realizaciones proporcionan un método de baja complejidad según el cual se utiliza información que ya existe en el codificador. En un enfoque preferido, la estimación de la forma del ruido de fondo que no se almacena para la detección de actividad de voz (VAD) se puede utilizar. Esta estimación contiene el nivel del ruido de fondo en 12 bandas de frecuencia con ancho creciente. Se puede construir un espectro a partir de esta estimación al mapearlo a una escala de frecuencia lineal con interpolación entre los puntos de datos originales. Se muestra en la figura 3 un ejemplo de la estimación de fondo original y el espectro reconstruido. En detalle, la figura 3 muestra la estimación de fondo original y el espectro reconstruido para ruido de automóvil con SNR promedio de -10 dB. A partir del espectro reconstruido se calcula la autocorrelación y se utiliza para obtener los coeficientes de predicción lineal de p-ésimo orden (LP) con la recursión de Levinson-Durbin. Ejemplos de los ajustes LP obtenidos con p = 2...6 se muestran en la figura 4. En detalle, la figura 4 muestra los ajustes de predicción lineal obtenidos para el ruido de fondo con diferentes órdenes de predicción (p = 2...6). El ruido de fondo es ruido de automóvil con SNR promedio de -10 dB.
El ajuste LP obtenido, Abck(z ) se puede utilizar como parte del filtro de ponderación de tal forma que se puede calcular un nuevo filtro de ponderación para
Figure imgf000008_0001
Aquí Y 2 es un parámetro con el cual se puede ajustar la cantidad de supresión de ruido. Con Y 2 ^ 0 es pequeño el efecto, en tanto que para Y l ~ 1 se puede obtener una alta supresión de ruido.
En la figura 5, se muestra un ejemplo del inverso del filtro de ponderación original así como el inverso del filtro de ponderación propuesto con diferentes órdenes de predicción. Para la figura, no se ha utilizado el filtro de des­ énfasis. En otras palabras, la figura 5 muestra las respuestas de frecuencia del inverso del filtro de ponderación original y el propuesto con diferentes órdenes de predicción. El ruido de fondo es ruido de automóvil con SNR promedio de -10 dB.
La figura 6 muestra un diagrama de flujo del método para proporcionar una representación codificada con base en una señal de audio. El método comprende un paso 202 para obtener una información de ruido que describe un ruido incluido en la señal de audio. Además, el método 200 comprende un paso 204 para codificar adaptativamente la señal de audio en dependencia de la información de ruido de tal forma que la precisión de codificación es mayor para las partes de señal de audio que están menos afectadas por el ruido incluido en la señal de audio que partes de la señal de audio que están más afectas para el ruido incluido en la señal de audio.
Aunque se han descrito algunos aspectos en el contexto de un aparato, es claro que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a un paso del método a una característica de un paso de método. De forma análoga, los aspectos descritos en el contexto de un paso de método también representan una descripción de un bloque o elemento o característica correspondiente de un aparato correspondiente. Algunos o todos los pasos del método se pueden ejecutar por (o utilizando) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, uno o más de los pasos de método más importantes se pueden ejecutar por un aparato de ese tipo.
La señal de audio codificada inventiva se puede almacenar en un medio de almacenamiento digital o se puede transmitir en un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión alámbrico tal como Internet.
Dependiendo de ciertos requerimientos de implementación, las realizaciones de la invención se pueden implementar en hardware o en software. La implementación se puede llevar a cabo utilizando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un Blu-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria rápida, que tienen señales de control electrónicamente legibles almacenadas en la misma, que cooperan (o son capaces de cooperar) con un sistema de ordenador programable de tal forma que se lleve a cabo el método respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
Algunas realizaciones según la invención comprenden un portador de datos que tiene señales de control electrónicamente legibles, que son capaces de cooperar con un sistema de ordenador programable, de tal forma que se lleve a cabo uno de los métodos descritos en el presente documento.
En general, se pueden implementar las realizaciones de la presente invención como un producto de programa de ordenador con un código de programa, el código de programa que es operativo para llevar a cabo uno de los métodos cuando el producto de programa de ordenador se ejecuta en un ordenador. El código de programa, por ejemplo, se puede almacenar en un portador legible por máquina.
Otras realizaciones comprenden el programa de ordenador para llevar a cabo uno de los métodos descritos en el presente documento, almacenado en un portador legible por máquina.
En otras palabras, una realización del método inventivo, por lo tanto, es un programa de ordenador que tiene un código de programa para llevar a cabo uno de los métodos descritos en el presente documento, cuando el programa de ordenador se ejecuta en un ordenador.
Una realización adicional de los métodos inventivos es, por lo tanto, un portador de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa de ordenador para llevar a cabo uno de los métodos descritos en el presente documento. El portador de datos, el medio de almacenamiento digital o el medio grabado son convencionalmente tangibles y/o no transitorios.
Una realización adicional del método inventivo es, por lo tanto, un flujo de datos o una secuencia de señales que representan el programa de ordenador para llevar a cabo uno de los métodos descritos en el presente documento. El flujo de datos o la secuencia de señales se pueden configurar, por ejemplo para transferirse a través de una conexión de comunicación de datos, por ejemplo a través de Internet.
Una realización adicional comprende medio de procesamiento, por ejemplo un ordenador, o un dispositivo lógico programable, configurado o adaptado para llevar a cabo uno de los métodos descritos en el presente documento. Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa de ordenador para llevar a cabo uno de los métodos descritos en el presente documento.
Una realización adicional según la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, de forma electrónica u óptica) un programa de ordenador para llevar a cabo uno de los métodos descritos en el presente documento a un receptor. El receptor, por ejemplo, puede ser un ordenador, un dispositivo móvil, un dispositivo de memoria o similares. El aparato o sistema, por ejemplo, puede comprender un servidor de archivos para transferir el programa de ordenador al receptor.
En algunas realizaciones, un dispositivo lógico programable (por ejemplo, un arreglo de compuertas programable en el campo) se puede utilizar para llevar a cabo algunas o todas las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, un arreglo de compuertas programable en el campo puede cooperar con un microprocesador a fin de llevar a cabo uno de los métodos descritos en el presente documento. En general, los métodos se llevan a cabo de manera preferente por cualquier aparato de hardware.
El aparato descrito en el presente documento se puede implementar utilizando un aparato de hardware, o utilizando un ordenador, o utilizando una combinación de un aparato de hardware y un ordenador.
Los métodos descritos en el presente documento se pueden llevar a cabo utilizando un aparato de hardware, o utilizando un ordenador, o utilizando una combinación de un aparato de hardware y un ordenador.
Las realizaciones descritas anteriormente son simplemente ilustrativas para los principios de la presente invención. Se entiende que serán evidentes modificaciones y variaciones de los arreglos y los detalles descritos en el presente documento para aquellos expertos en la técnica. Se propone que, por lo tanto, se limite solamente por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a manera de descripción y explicación de las realizaciones en el presente documento.

Claims (16)

  1. REIVINDICACIONES
    i. Codificador (100) de audio para proporcionar una representación (102) codificada con base en una señal (104) de audio, en el que el codificador (100) de audio se configura para obtener una información (106) de ruido que describe un ruido incluido en la señal (104) de audio, y en el que el codificador (100) de audio se configura para codificar adaptativamente la señal (104) de audio en dependencia de la información (106) de ruido, de tal forma que la precisión de codificación es mayor para partes de la señal (104) de audio que están menos afectadas por el ruido incluido en la señal (104) de audio que para partes de la señal (104) de audio que están más afectadas por el ruido incluido en la señal (104) de audio;
    en el que la señal (104) de audio es una señal de voz, y en el que el codificador (100) de audio se configura para derivar una señal (120) residual de la señal (104) de voz y para codificar la señal (120) residual utilizando un libro (122) de códigos;
    en el que el codificador (100) de audio se configura para seleccionar una entrada del libro de códigos de una pluralidad de entradas de un libro (122) de códigos para codificar la señal (120) residual en dependencia de la información (106) de ruido;
    en el que el codificador (100) de audio se configura para seleccionar la entrada del libro de códigos utilizando un filtro de ponderación perceptual (W);
    en el que el codificador (100) de audio se configura para ajustar el filtro de ponderación perceptual (W) de tal forma que partes de la señal (104) de voz que están menos afectadas por el ruido se ponderan más para la selección de la entrada del libro de códigos que partes de la señal (104) de voz que están más afectadas por el ruido;
    en el que el codificador (100) de audio se configura para seleccionar la entrada del libro de códigos para la señal (120) residual de tal forma que se reduce o se minimiza un error de cuantificación ponderado, sintetizado de la señal (126) residual ponderada con el filtro de ponderación perceptual W.
  2. 2. Codificador (100) de audio según la reivindicación 1, en el que el codificador (100) de audio se configura para codificar adaptativamente la señal (104) de audio al ajustar una función objetiva perceptual utilizada para codificar la señal (104) de audio en dependencia de la información (106) de ruido.
  3. 3. Codificador (100) de audio según la reivindicación 1, en el que el codificador (100) de audio se configura para codificar de forma simultánea la señal (104) de audio y reducir el ruido en la representación (102) codificada de la señal (104) de audio, al codificar adaptativamente la señal (104) de audio en dependencia de la información (106) de ruido.
  4. 4. Codificador (100) de audio según una de las reivindicaciones 1 a 3, en el que la información (106) de ruido es una relación señal a ruido.
  5. 5. Codificador (100) de audio según una de las reivindicaciones 1 a 3, en el que la información (106) de ruido es una forma estimada del ruido incluido en la señal (104) de audio.
  6. 6. Codificador (100) de audio según una de las reivindicaciones 1 a 5, en el que el codificador (100) de audio se configura para estimar una contribución de un tramo vocal en la señal de voz, y para retirar la contribución estimada del tramo vocal de la señal (104) de voz a fin de obtener la señal (120) residual.
  7. 7. Codificador (100) de audio según la reivindicación 6, en el que el codificador (100) de audio se configura para estimar la contribución del tramo vocal en la señal (104) de voz utilizando predicción lineal.
  8. 8. Codificador (100) de audio según una de las reivindicaciones 1a 7, en el que el codificador de audio se configura para ajustar el filtro de ponderación perceptual (W) de tal forma que se reduce un efecto de ruido en la selección de la entrada del libro de códigos.
  9. 9. Codificador (100) de audio según una de las reivindicaciones 1 a 8, en el que el codificador (100) de audio se configura para ajustar el filtro de ponderación perceptual (W) de tal forma que se reduce un error entre las partes de la señal (120) residual que están menos afectadas por el ruido y las partes correspondientes de una señal (126) residual cuantificada.
  10. 10. Codificador de audio según una de las reivindicaciones 1a 9, en el que el codificador (100) de audio se configura para seleccionar la entrada del libro de códigos para la señal (120,x) residual de tal forma que se reduce un error de cuantificación ponderado, sintetizado de la señal residual ponderada con el filtro de ponderación perceptual (W).
  11. 11. Codificador (100) de audio según una de las reivindicaciones 1 a 10, en el que el codificador (100) de audio se configura para seleccionar la entrada de libro de códi os utilizando la función de distancia:
    Figure imgf000011_0001
    en donde x representa la señal residual, en donde x representa la señal residual cuantificada, en donde W representa el filtro de ponderación perceptual, y en donde H representa un filtro de síntesis de tramo vocal cuantificado.
  12. 12. Codificador (100) de audio según una de las reivindicaciones 1 a 11, en el que el codificador de audio se configura para utilizar una estimación de una forma del ruido que está disponible en el codificador de audio para detección de actividad de voz como la información de ruido.
  13. 13. Codificador (100) de audio según una de las reivindicaciones 1 a 12, en el que el codificador (100) de audio se configura para derivar coeficientes de predicción lineal de la información (106) de ruido, para determinar de esta forma un ajuste de predicción lineal (Abck), y para utilizar el ajuste de predicción lineal (Abck) en el filtro de ponderación perceptual (W).
  14. 14. Codificador de audio según la reivindicación 13, en el que el codificador de audio se configura para ajustar el filtro de ponderación perceptual utilizando la fórmula:
    Figure imgf000011_0002
    en la que W representa el filtro de ponderación perceptual, en la que A representa un modelo de tramo vocal, Abck representa el ajuste de predicción lineal, Hde-emf representa un filtro de síntesis de tramo vocal cuantificado, 71 = 0,92, y 72 es un parámetro con el cual es ajustable una cantidad de supresión de ruido.
  15. 15. Método para proporcionar una representación codificada con base en una señal de audio, en el que el método comprende:
    obtener una información de ruido que describe un ruido incluido en la señal de audio; y
    codificar adaptativamente la señal de audio en dependencia de la información de ruido, de tal forma que la precisión de codificación es mayor para partes de la señal de audio que están menos afectadas por el ruido incluido en la señal de audio que partes de la señal de audio que están más afectadas por el ruido incluido en la señal de audio, en donde los componentes de frecuencia que están menos dañados por el ruido se cuantifican con menos error en tanto que los componentes que es probable que contengan errores de ruido tienen un peso inferior en el proceso de cuantificación;
    en donde la señal (104) de audio es una señal de voz;
    derivar una señal (120) residual de la señal (104) de voz y codificar la señal (120) residual utilizando un libro (122) de códigos;
    seleccionar una entrada del libro de códigos de una pluralidad de entradas de un libro (122) de códigos para codificar la señal (120) residual en dependencia de la información (106) de ruido;
    seleccionar la entrada del libro de códigos utilizando un filtro de ponderación perceptual (W);
    ajustar el filtro de ponderación perceptual (W) de tal forma que partes de la señal (104) de voz que están menos afectadas por el ruido se ponderan más para la selección de la entrada del libro de códigos que partes de la señal (104) de voz que están más afectadas por el ruido;
    seleccionar la entrada del libro de códigos para la señal (120) residual de tal forma que se reduce o se minimiza un error de cuantificación ponderado, sintetizado de la señal (126) residual ponderada con el filtro de ponderación perceptual W.
  16. 16. Medio de almacenamiento digital legible por ordenador que tiene almacenado en el mismo un programa de ordenador para llevar a cabo un método según la reivindicación 15.
ES16714448T 2015-04-09 2016-04-06 Codificador de audio y método para codificar una señal de audio Active ES2741009T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP15163055.5A EP3079151A1 (en) 2015-04-09 2015-04-09 Audio encoder and method for encoding an audio signal
PCT/EP2016/057514 WO2016162375A1 (en) 2015-04-09 2016-04-06 Audio encoder and method for encoding an audio signal

Publications (1)

Publication Number Publication Date
ES2741009T3 true ES2741009T3 (es) 2020-02-07

Family

ID=52824117

Family Applications (1)

Application Number Title Priority Date Filing Date
ES16714448T Active ES2741009T3 (es) 2015-04-09 2016-04-06 Codificador de audio y método para codificar una señal de audio

Country Status (11)

Country Link
US (1) US10672411B2 (es)
EP (2) EP3079151A1 (es)
JP (1) JP6626123B2 (es)
KR (1) KR102099293B1 (es)
CN (1) CN107710324B (es)
BR (1) BR112017021424B1 (es)
CA (1) CA2983813C (es)
ES (1) ES2741009T3 (es)
MX (1) MX366304B (es)
RU (1) RU2707144C2 (es)
WO (1) WO2016162375A1 (es)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
CN111583903B (zh) * 2020-04-28 2021-11-05 北京字节跳动网络技术有限公司 语音合成方法、声码器训练方法、装置、介质及电子设备

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4133976A (en) 1978-04-07 1979-01-09 Bell Telephone Laboratories, Incorporated Predictive speech signal coding with reduced noise effects
NL8700985A (nl) * 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
US5680508A (en) 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5369724A (en) * 1992-01-17 1994-11-29 Massachusetts Institute Of Technology Method and apparatus for encoding, decoding and compression of audio-type data using reference coefficients located within a band of coefficients
WO1994025959A1 (en) 1993-04-29 1994-11-10 Unisearch Limited Use of an auditory model to improve quality or lower the bit rate of speech synthesis systems
DE69526926T2 (de) * 1994-02-01 2003-01-02 Qualcomm Inc Lineare vorhersage durch impulsanregung
FR2734389B1 (fr) 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US5790759A (en) * 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
JP4005154B2 (ja) * 1995-10-26 2007-11-07 ソニー株式会社 音声復号化方法及び装置
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
US6182033B1 (en) 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US7392180B1 (en) * 1998-01-09 2008-06-24 At&T Corp. System and method of coding sound signals using sound enhancement
US6385573B1 (en) 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
JP3315956B2 (ja) * 1999-10-01 2002-08-19 松下電器産業株式会社 音声符号化装置及び音声符号化方法
US6523003B1 (en) * 2000-03-28 2003-02-18 Tellabs Operations, Inc. Spectrally interdependent gain adjustment techniques
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
US6850884B2 (en) * 2000-09-15 2005-02-01 Mindspeed Technologies, Inc. Selection of coding parameters based on spectral content of a speech signal
EP1521243A1 (en) 2003-10-01 2005-04-06 Siemens Aktiengesellschaft Speech coding method applying noise reduction by modifying the codebook gain
AU2003274864A1 (en) 2003-10-24 2005-05-11 Nokia Corpration Noise-dependent postfiltering
JP4734859B2 (ja) * 2004-06-28 2011-07-27 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
US8781842B2 (en) * 2006-03-07 2014-07-15 Telefonaktiebolaget Lm Ericsson (Publ) Scalable coding with non-casual predictive information in an enhancement layer
EP1873754B1 (en) * 2006-06-30 2008-09-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
WO2008032828A1 (fr) * 2006-09-15 2008-03-20 Panasonic Corporation Dispositif de codage audio et procédé de codage audio
WO2008108721A1 (en) 2007-03-05 2008-09-12 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for controlling smoothing of stationary background noise
US20080312916A1 (en) 2007-06-15 2008-12-18 Mr. Alon Konchitsky Receiver Intelligibility Enhancement System
CN101430880A (zh) * 2007-11-07 2009-05-13 华为技术有限公司 一种背景噪声的编解码方法和装置
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
US8260220B2 (en) 2009-09-28 2012-09-04 Broadcom Corporation Communication device with reduced noise speech coding
PL2491555T3 (pl) * 2009-10-20 2014-08-29 Fraunhofer Ges Forschung Wielotrybowy kodek audio
DE112011104737B4 (de) * 2011-01-19 2015-06-03 Mitsubishi Electric Corporation Geräuschunterdrückungsvorrichtung
PL2676268T3 (pl) * 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
PL2737479T3 (pl) 2011-07-29 2017-07-31 Dts Llc Adaptacyjna poprawa zrozumiałości głosu
US9972325B2 (en) * 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
US8854481B2 (en) * 2012-05-17 2014-10-07 Honeywell International Inc. Image stabilization devices, methods, and systems
US9728200B2 (en) * 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
CN103413553B (zh) * 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和系统

Also Published As

Publication number Publication date
KR20170132854A (ko) 2017-12-04
EP3079151A1 (en) 2016-10-12
KR102099293B1 (ko) 2020-05-18
BR112017021424A2 (pt) 2018-07-03
CA2983813A1 (en) 2016-10-13
CN107710324B (zh) 2021-12-03
RU2017135436A (ru) 2019-04-08
RU2017135436A3 (es) 2019-04-08
BR112017021424B1 (pt) 2024-01-09
EP3281197A1 (en) 2018-02-14
CN107710324A (zh) 2018-02-16
RU2707144C2 (ru) 2019-11-22
US20180033444A1 (en) 2018-02-01
WO2016162375A1 (en) 2016-10-13
US10672411B2 (en) 2020-06-02
MX366304B (es) 2019-07-04
CA2983813C (en) 2021-12-28
EP3281197B1 (en) 2019-05-15
JP2018511086A (ja) 2018-04-19
MX2017012804A (es) 2018-01-30
JP6626123B2 (ja) 2019-12-25

Similar Documents

Publication Publication Date Title
US10964334B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
AU2017265038B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
AU2013378793B2 (en) Systems and methods for mitigating potential frame instability
ES2741009T3 (es) Codificador de audio y método para codificar una señal de audio
KR20150014607A (ko) 통신 시스템에서 오류 은닉 방법 및 장치