ES2704286T3 - Método y dispositivo para la descodificación espectral perceptual de una señal de audio, que incluyen el llenado de huecos espectrales - Google Patents

Método y dispositivo para la descodificación espectral perceptual de una señal de audio, que incluyen el llenado de huecos espectrales Download PDF

Info

Publication number
ES2704286T3
ES2704286T3 ES08828426T ES08828426T ES2704286T3 ES 2704286 T3 ES2704286 T3 ES 2704286T3 ES 08828426 T ES08828426 T ES 08828426T ES 08828426 T ES08828426 T ES 08828426T ES 2704286 T3 ES2704286 T3 ES 2704286T3
Authority
ES
Spain
Prior art keywords
spectral
coefficients
spectral coefficients
filling
codebook
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES08828426T
Other languages
English (en)
Inventor
Anisse Taleb
Manuel Briand
Gustaf Ullberg
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40387560&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2704286(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2704286T3 publication Critical patent/ES2704286T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Abstract

Método para la descodificación espectral perceptual de una señal de audio, que comprende las etapas de: descodificar (210) coeficientes espectrales recuperados de un flujo binario para obtener coeficientes espectrales descodificados de un conjunto inicial de coeficientes espectrales; llenar espectralmente (212) dicho conjunto inicial de coeficientes espectrales obteniendo un conjunto de coeficientes espectrales reconstruidos; comprendiendo dicho llenado espectral (212) un llenado (214), con ruido, de huecos espectrales mediante la fijación de coeficientes espectrales de dicho conjunto inicial de coeficientes espectrales que no se reciben en dicho flujo binario, de manera que sean iguales a elementos obtenidos a partir de dichos coeficientes espectrales descodificados; y convertir (216) dicho conjunto de coeficientes espectrales reconstruidos de un dominio de frecuencia en una señal de audio en un dominio en el tiempo, caracterizado por que dicho llenado (214) con ruido comprende, a su vez, la creación (262) de un libro de códigos espectral concatenando los coeficientes espectrales perceptualmente relevantes de dichos coeficientes espectrales descodificados, con lo cual dicho llenado (214), con ruido, de huecos espectrales comprende la fijación de coeficientes espectrales en dicho conjunto inicial de coeficientes espectrales de manera que sean iguales a elementos seleccionados (266) de dicho libro de códigos espectral de acuerdo con por lo menos un criterio; uno del por lo menos un criterio es seleccionar (266) elementos de dicho libro de códigos espectral en un orden de índices comenzando desde el extremo de baja frecuencia, en donde se asignan índices i a los coeficientes espectrales y se asignan índices j a los elementos del libro de códigos espectral, en donde los huecos espectrales se llenan a ciegas incrementando el índice j en la misma medida que el índice i, y mediante un uso cíclico del libro de códigos espectral en caso de que haya más huecos espectrales que elementos en el libro de códigos espectral.

Description

DESCRIPCIÓN
Método y dispositivo para la descodificación espectral perceptual de una señal de audio, que incluyen el llenado de huecos espectrales
CAMPO TÉCNICO
La presente invención se refiere, en general, a métodos y dispositivos para codificar y descodificar señales de audio, y, en particular, a métodos y dispositivos para descodificación espectral perceptual.
ANTECEDENTES
Cuando se deben almacenar y/o transmitir señales de audio, uno de los planteamientos convencionales en la actualidad consiste en codificar las señales de audio obteniendo una representación digital de acuerdo con diferentes esquemas. Con el fin de ahorrar capacidad de almacenamiento y/o transmisión, una de las aspiraciones predominantes consiste en reducir el tamaño de la representación digital necesario para permitir una reconstrucción de las señales de audio con la suficiente calidad perceptual. El compromiso entre el tamaño de la señal codificada y la calidad de la señal depende de la aplicación concreta.
Una señal en el dominio del tiempo debe dividirse, típicamente, en partes más pequeñas con el fin de codificar de forma precisa la evolución de la amplitud de la señal, es decir, describirla con una cantidad pequeña de información. Habitualmente, los métodos de codificación del estado de la técnica transforman la señal del dominio del tiempo al dominio de la frecuencia en donde puede lograrse una mejor ganancia de codificación usando una codificación perceptual, es decir, codificación con pérdidas pero idealmente imperceptible por el sistema auditivo humano. Véase, por ejemplo, de J. D. Johnston, “Transform coding of audio signals using perceptual noise criteria”, IEEE J. Select. Areas Commun., Vol. 6, págs. 314 a 323, 1988 [1]. No obstante, cuando la restricción por velocidad de bits es demasiado fuerte, el concepto de codificación de audio perceptual no puede evitar la introducción de distorsiones, es decir, ruido de codificación por encima del umbral de enmascaramiento. La temática general de la reducción de distorsiones en la codificación de audio perceptual se ha afrontado con la tecnología de la Conformación de Ruido Temporal (TNS) descrita, por ejemplo, en “Temporal Noise Shaping, Quantization and Coding Methods in Perceptual Audio Coding: A tutorial introduction”, de J. Herre, AES 17th Int. conf. on High Quality Audio Coding, 1997 [2]. Básicamente, el planteamiento de TNS se basa en dos consideraciones principales, a saber, la consideración de la dualidad de tiempo/frecuencia y la conformación de espectros de ruido de cuantificación por medio de codificación predictiva de bucle abierto.
Además, se están diseñando continuamente normativas de codificación de audio para entregar una calidad de audio alta o intermedia, desde voz de banda estrecha a audio de banda completa, con velocidades de datos bajas por una complejidad razonable de acuerdo con la aplicación pretendida. La tecnología de Replicación de Banda Espectral (SBR), descrita en el documento 3GPP TS 26.404 V6.0.0 (2004-09), “Enhanced aacPlus general audio codec -encoder SBR part (Release 6)”, 2004 [3], se ha introducido para permitir una codificación de audio de banda ancha o banda completa con una velocidad de datos baja asociando parámetros específicos al flujo binario resultante de una codificación de audio perceptual de la señal de banda estrecha. Típicamente, dichos parámetros específicos se usan en el lado del descodificador para volver a generar las altas frecuencias que faltan, es decir, aquellas no descodificadas por el códec central del espectro descodificado de baja frecuencia.
La asociación de tecnologías de TNS y de SBR, lo cual se describe en la referencia [3], en un códec de audio basado en transformadas se ha implementado satisfactoriamente para aplicaciones de velocidades de datos intermedias, es decir, una velocidad de bits típica de 32 kbps para una calidad de audio intermedia. Sin embargo, estos métodos de codificación altamente sofisticados son muy complejos puesto que implican una codificación predictiva y un banco de filtros de resolución adaptativa que requieren ciertos retardos. De hecho, no resultan muy adecuados para aplicaciones de bajo retardo y baja complejidad.
El documento US 2003/0233234 describe un sistema de codificación de audio que hace uso del llenado de huecos espectrales. Los procesos de codificación de audio, como la cuantificación, pueden provocar que componentes espectrales de una señal de audio codificada se fijen a cero, debido al umbral mínimo correspondiente a la cuantificación. Esto crea una especie de hueco espectral en la señal. Estos huecos espectrales pueden degradar la calidad percibida de señales de audio que son reproducidas por sistemas de codificación de audio. Uno de los descodificadores mejorados evita o reduce la degradación llenando esta forma particular de hueco espectral con componentes espectrales sintetizados. La síntesis de componentes espectrales viene facilitada por un codificador mejorado. El documento US 2003/0187663 A1 da a conocer una traslación de frecuencia de banda ancha para la regeneración/llenado de altas frecuencias y/o huecos espectrales. Un regenerador de componentes espectrales regenera componentes que faltan copiando o trasladando la totalidad o al menos parte de los componentes espectrales de la señal de banda ancha a las posiciones de los componentes que faltan de la señal. Se pueden trasladar componentes espectrales hacia intervalos de frecuencia con solapamiento y/o hacia intervalos de frecuencia con espacios en el espectro, esencialmente según cualquier manera que se desee.
La elección de qué componentes espectrales deberían copiarse se puede variar para adecuarse a la aplicación particular. Por ejemplo, los componentes espectrales que se copian no es necesario que comiencen en el borde inferior de la banda base y no es necesario que finalicen en el borde superior de la banda base. Si el ancho de banda de todos los componentes espectrales a regenerar es mayor que el ancho de banda de los componentes espectrales de banda base a copiar, los componentes espectrales de banda base se pueden copiar de una manera circular comenzando con el componente de frecuencia más baja hasta el componente de frecuencia más alta y, si fuera necesario, dando la vuelta y continuando con el componente de frecuencia más baja.
SUMARIO
Por lo tanto, es un objetivo general de la presente invención proporcionar métodos y dispositivos para reducir artefactos de codificación, aplicables también a velocidades de bits bajas. Es también otro objetivo de la presente invención proporcionar métodos y dispositivos para reducir artefactos de codificación con una baja complejidad. Los objetivos antes mencionados se logran con métodos y dispositivos de acuerdo con las reivindicaciones de patente adjuntas. En un primer aspecto, se proporciona un método para descodificación espectral perceptual, según se expone en la reivindicación independiente 1.
En un segundo aspecto, se proporciona un descodificador espectral perceptual, según se expone en la reivindicación independiente 6.
Una de las ventajas de la presente invención es que una envolvente temporal de señal original correspondiente a una señal de audio se preserva mejor puesto que el llenado con ruido se basa en los coeficientes espectrales descodificados sin inyección de ruido aleatorio tal como se produce en los métodos convencionales de llenado con ruido. También es posible implementar la presente invención en una modalidad de baja complejidad. Se describen adicionalmente otras ventajas en relación con las diferentes realizaciones que se describen de manera adicional posteriormente, en donde cabe señalar que la invención se expone en las reivindicaciones independientes, y todas las apariciones sucesivas del término “realización(es)”, cuando se refieren a combinaciones de características diferentes de aquellas definidas por las reivindicaciones independientes, se refieren a ejemplos que fueron presentados originalmente pero que no representan realizaciones de la invención reivindicada en este momento; estos ejemplos siguen mostrándose únicamente con fines ilustrativos.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
La invención, junto con otros objetivos y ventajas de la misma, puede entenderse mejor en referencia a la siguiente descripción cuando esta se considera junto con los dibujos anexos, en los cuales:
La FIGURA 1 es un diagrama de bloques esquemático de un sistema de códec;
la FIGURA 2 es un diagrama de bloques esquemático de una realización de un codificador de señales de audio;
la FIGURA 3 es un diagrama de bloques esquemático de una realización de un descodificador de señales de audio;
la FIGURA 4 es un diagrama de bloques esquemático de una realización de un módulo de llenado de ruido según la presente invención;
las FIGS. 5A-B son ilustraciones sobre la creación y la utilización de libros de códigos espectrales destinados a un llenado con ruido según una realización de la presente invención;
la FIGURA 6 es un diagrama de bloques esquemático de una realización de un descodificador de acuerdo con la presente invención;
la FIGURA 7 es un diagrama de bloques esquemático de otra realización de un módulo de llenado con ruido según la presente invención;
las FIGS. 8A-B son ilustraciones de realizaciones de la expansión del ancho de banda de acuerdo con una realización de un planteamiento de plegamiento espectral según la presente invención;
la FIGURA 9 es un diagrama de bloques esquemático todavía de otra realización de un módulo de llenado de ruido según la presente invención;
la FIGURA 10 es un diagrama de bloques esquemático de un codificador que tiene un codificador de envolventes de acuerdo con una realización de la presente invención;
la FIGURA 11 es un diagrama de flujo de etapas de una realización de un método de descodificación de acuerdo con la presente invención; y
la FIGURA 12 es un diagrama de flujo de etapas de una realización de un método de tratamiento de señales de acuerdo con la presente invención.
DESCRIPCIÓN DETALLADA
En la totalidad de los dibujos, se usan los mismos números de referencia para elementos similares o correspondientes.
La presente invención se basa en un procesado en el dominio de la frecuencia, en el lado de descodificación de un sistema de codificación-descodificación. A este procesado en el dominio de la frecuencia se le denomina Llenado de Ruido (NF), el cual puede reducir los artefactos de codificación que se producen, particularmente, para velocidades de bits bajas y el cual también se puede usar para regenerar una señal de audio de ancho de banda completo incluso con bajas velocidades y con un esquema de baja complejidad.
En la Figura 1 se ilustra esquemáticamente una realización de un sistema de códec general para señales de audio. Una fuente 10 de audio da origen a una señal 15 de audio. La señal 15 de audio es tratada en un codificador 20, el cual produce un flujo binario 25 que comprende datos que representan la señal 15 de audio. El flujo binario 25 se puede transmitir, como, por ejemplo, en el caso de una comunicación multimedia, por medio de una disposición 30 de transmisión y/o almacenamiento. Opcionalmente, la disposición 30 de transmisión y/o almacenamiento también puede comprender cierta capacidad de almacenamiento. El flujo binario 25 también se puede almacenar solamente en la disposición 30 de transmisión y/o almacenamiento, introduciendo solo un retardo de tiempo en la utilización del flujo binario. Por lo tanto, la disposición 30 de transmisión y/o almacenamiento es una disposición que introduce al menos uno de un reposicionamiento espacial o retardo de tiempo del flujo binario 25. Cuando se usa, el flujo binario 25 es tratado en un descodificador 40, el cual produce una salida 35 de audio a partir de los datos comprendidos en el flujo binario. Típicamente, la salida 35 de audio debería aproximarse lo mejor posible a la señal 15 de audio original con ciertas restricciones, por ejemplo, velocidad de datos, retardo o complejidad.
En muchas aplicaciones de tiempo real, típicamente no se permite que el retardo de tiempo entre la producción de la señal 15 de audio original y la salida 35 de audio producida supere un cierto tiempo. Si los recursos de transmisión al mismo tiempo están limitados, la velocidad de bits disponibles también es típicamente baja. Para utilizar la velocidad de bits disponible de la mejor manera posible, se ha desarrollado la codificación de audio perceptual. Por ello, la codificación de audio perceptual se ha convertido en una parte importante para muchos servicios multimedia en la actualidad. El principio básico consiste en convertir la señal de audio en un coeficiente espectral en un dominio de la frecuencia, y, usando un modelo perceptual, determinar un enmascaramiento de los coeficientes espectrales que depende de la frecuencia y del tiempo.
La Figura 2 ilustra una realización de un codificador típico 20 de audio, perceptual. En esta realización particular, el codificador perceptual 20 de audio es un codificador espectral basado en un módulo de transformación de tiempo-afrecuencia o un banco de filtros. Se recibe una fuente 15 de audio, que comprende tramas de señales de audio. En un codificador de transformación típico, la primera etapa consiste en un procesado en el dominio del tiempo, denominado habitualmente enventanado de la señal el cual da como resultado una segmentación, en el tiempo, de la señal de audio de entrada x[n]. De este modo, una sección 21 de enventanado recibe las señales de audio y proporciona una señal de audio segmentada en el tiempo x[n] 22.
La señal de audio segmentada en el tiempo x[n] 22 se proporciona a un conversor 23, dispuesto para convertir la señal 22 de audio, en el dominio del tiempo, en un conjunto de coeficientes espectrales de un dominio de la frecuencia. El conversor 23 se puede implementar de acuerdo con cualquier módulo de transformación o banco de filtros de la técnica anterior. Los detalles no tienen una importancia particular para que los principios de la presente invención sean funcionales, y, por ello, dichos detalles se omitirán de la descripción. La transformación, usada por el codificador, del dominio del tiempo a frecuencia podría ser, por ejemplo, la:
Transformada Discreta de Fourier (DFT),
Figure imgf000004_0001
donde X[k] es la DFT de la señal de entrada enventanada x[n]. N es el tamaño de la ventana w[n], n es el índice de tiempo y k el índice de compartimento (bin) frecuencial.
Transformada Discreta de Coseno (DCT),
Transformada de Coseno Discreta modificada (MDCT),
Figure imgf000004_0002
donde X[k] es la MDCT de la señal de entrada enventanada x[n]. N es el tamaño de la ventana w[n], n es el índice tiempo y k el índice de compartimento frecuencial.
etcétera.
En la presente realización, sobre la base de una de estas representaciones frecuenciales de la señal de audio de entrada, el códec de audio perceptual tiene como objetivo descomponer el espectro, o su aproximación, en relación con las bandas críticas del sistema auditivo, por ejemplo, la escala Bark. Esta etapa se puede lograr por medio de un agrupamiento, en frecuencia, de los coeficientes de la transformada de acuerdo con una escala perceptual establecida según las bandas críticas.
Figure imgf000005_0001
siendo Nb el número de bandas frecuenciales o sicoacústicas y b el índice relativo.
La salida del conversor 23 es un conjunto de coeficientes espectrales que son una representación frecuencial 24 de la señal de audio de entrada.
Típicamente, se usa un modelo perceptual para determinar un enmascaramiento, dependiente de la frecuencia y del tiempo, de los coeficientes espectrales. En la presente realización, el códec de transformación perceptual se basa en una estimación de un Umbral de Enmascaramiento MT[b] con el fin de obtener una función de conformación frecuencial, por ejemplo, los Factores de Escala SF[b], aplicada a los coeficientes de la transformada Xb[k] en el dominio de las subbandas sicoacústicas. El espectro escalado Xsb[k] se puede definir como
Figure imgf000005_0002
Con este fin, en la realización de la Figura 2, una sección 26 de modelado sicoacústico se conecta a la sección 21 de enventanado para tener acceso a la señal acústica original 22, y al conversor 23 para tener acceso a la representación frecuencial. En la presente realización, la sección 26 de modelado sicoacústico está dispuesta para utilizar la estimación antes descrita y da salida a un umbral de enmascaramiento MT[k] 27.
El umbral de enmascaramiento MT[k] 27 y la representación frecuencial 24 de la señal de audio de entrada se proporcionan a una sección 28 de cuantificación y codificación. En primer lugar, el umbral de enmascaramiento MT[k] 27 se aplica en la representación frecuencial 24 dando lugar a un conjunto de coeficientes espectrales. En la presente realización, el conjunto de coeficientes espectrales se corresponde con los coeficientes del espectro escalado Xsb[k] basados en los agrupamientos frecuenciales Xb[k]. No obstante, en un codificador de transformación más general, el escalado también se puede llevar a cabo sobre los coeficientes espectrales individuales X[k] directamente.
La sección 28 de cuantificación y codificación está dispuesta, además, para cuantificar el conjunto de coeficientes espectrales según cualquier manera adecuada dando lugar a una compresión de la información. La sección 28 de cuantificación y codificación está dispuesta, también, para codificar el conjunto cuantificado de coeficientes espectrales. Dicha codificación saca provecho, preferentemente, de las propiedades perceptuales y actúa de manera que enmascara el ruido de cuantificación de la mejor manera posible. De este modo, el codificador perceptual puede aprovechar el espectro escalado perceptualmente con fines de codificación. La reducción de redundancia puede ser realizada, así, por medio de un proceso de cuantificación y codificación que podrá centrarse en los coeficientes más relevantes desde el punto de vista perceptivo, del espectro original usando el espectro escalado. Los coeficientes espectrales codificados junto con información colateral adicional se empaquetan en un flujo continuo de bits de acuerdo con la normativa de transmisión o almacenamiento que se vaya a usar. De este modo, desde la sección 28 de cuantificación y codificación, se da salida a un flujo binario 25 que tiene datos que representan el conjunto de coeficientes espectrales.
En la fase de descodificación, se lleva a cabo básicamente la operación inversa. En la Figura 3, se ilustra una realización de un descodificador perceptual típico 40 de audio. Se recibe un flujo binario 25, el cual tiene las propiedades del codificador descrito anteriormente en la presente. En un descodificador 41 de coeficientes espectrales se realiza la descuantificación y descodificación del flujo binario recibido 25, por ejemplo, un flujo continuo de bits. El descodificador 41 de coeficientes espectrales está dispuesto para descodificar coeficientes espectrales recuperados del flujo binario, obteniendo coeficientes espectrales descodificados X°[k] de un conjunto inicial de coeficientes espectrales 42, posiblemente agrupados en agrupamientos frecuenciales Xc.
Típicamente, el conjunto inicial de coeficientes espectrales 42 está incompleto en el sentido de que el mismo comprende, típicamente, los denominados “huecos espectrales”, lo cual se corresponde con coeficientes espectrales que no se reciben en el flujo binario o que al menos no se descodifican a partir del flujo binario. En otras palabras, los huecos espectrales son coeficientes espectrales no descodificados X°[k] o coeficientes espectrales fijados automáticamente a un valor predeterminado, típicamente cero, por el descodificador 41 de coeficientes espectrales. El conjunto inicial incompleto de coeficientes espectrales 42 proveniente del descodificador 41 de coeficientes espectrales se proporciona a un módulo 43 de llenado espectral. El módulo 43 de llenado espectral está dispuesto para realizar un llenado espectral del conjunto inicial de coeficientes espectrales 42. A su vez, el módulo 43 de llenado espectral comprende un módulo 50 de llenado con ruido. El módulo 50 de llenado con ruido está dispuesto para proporcionar un proceso destinado a llenar con ruido huecos espectrales fijando, a un valor definido, coeficientes espectrales en el conjunto inicial de coeficientes espectrales 42 que no se han descodificado del flujo binario 25. Tal como se describe de forma detallada adicionalmente más adelante, de acuerdo con la presente invención, los coeficientes espectrales de los huecos espectrales se fijan de manera que son iguales a elementos obtenidos a partir de los coeficientes espectrales descodificados. De este modo, el descodificador 40 presenta un módulo específico que permite un llenado con ruido de alta calidad en el dominio de la transformada. El resultado del módulo 43 de llenado espectral es un conjunto completo 44 de coeficientes espectrales reconstruidos X'b[k], que tiene todos los coeficientes espectrales dentro de un cierto intervalo de frecuencia definido.
El conjunto completo 44 de coeficientes espectrales se proporciona a un conversor 45 conectado al módulo 43 de llenado espectral. El conversor 45 está dispuesto para convertir el conjunto completo 44 de coeficientes espectrales reconstruidos de un dominio frecuencial, en una señal 46 de audio de un dominio en el tiempo. Típicamente, el conversor 45 se basa en un módulo de transformación inversa o banco de filtros, correspondiente a la técnica de transformación usada en el codificador 20 (Figura 2). En una realización particular, la señal 46 se lleva de nuevo al dominio del tiempo con una transformada inversa, por ejemplo, MDCT Inversa - IMDCT o DFT Inversa - IDFT, etcétera. En otras realizaciones, se utiliza un banco de filtros inverso. Igual que en el lado del codificador, el proceso del conversor 45 como tal es conocido en la técnica anterior, y no será descrito adicionalmente. Finalmente, se usa el método de suma con solapamiento (overlap-add) para generar la señal 34 de audio final reconstruida perceptualmente x[n] en una salida 35 correspondiente a dicha señal 34 de audio. Esto se prevé, en la presente realización ejemplificativa, con una sección 47 de enventanado y una sección 49 de adaptación de solapamiento.
Las anteriores realizaciones presentadas del codificador y del descodificador se podrían proporcionar para una codificación por subbandas así como para la codificación de toda la banda de frecuencias de interés.
En la Figura 4, se ilustra una realización de un módulo 50 de llenado con ruido de acuerdo con la presente invención. Este módulo particular 50 de llenado con ruido de alta calidad permite la preservación de la estructura temporal con un llenado espectral basado en un concepto nuevo que se denomina libro de códigos de ruido espectral. El libro de códigos de ruido espectral se construye sobre la marcha basándose en el espectro descodificado, es decir, los coeficientes espectrales descodificados. El espectro descodificado contiene la información global de envolvente temporal lo cual significa que el ruido generado, posiblemente aleatorio, a partir del libro de códigos de ruido contendrá también dicha información lo cual evitará un llenado con ruido temporalmente plano, que introduciría distorsiones ruidosas.
La arquitectura del módulo de llenado con ruido de la Figura 4 se basa en dos secciones consecutivas, cada una de ellas asociada a una etapa respectiva. La primera etapa, llevada a cabo por un generador 51 de libros de códigos espectrales, consiste en la construcción de un libro de códigos espectral con elementos que son proporcionados por el espectro descodificado X ® [ír ] es decir, los coeficientes espectrales descodificados del conjunto inicial de coeficientes espectrales 42.
A continuación, en una sección 52 de llenado espectral, las subbandas espectrales descodificadas o coeficientes espectrales que se consideran como huecos espectrales, se llenan con los elementos del libro de códigos con el fin de reducir los artefactos de codificación. Este llenado espectral debería considerarse preferentemente desde las frecuencias más bajas hasta una frecuencia de transición que se puede definir adaptativamente. No obstante, el llenado puede llevarse a cabo en el intervalo de frecuencia completo si así se requiere. Mediante el uso de elementos del libro de códigos, que están asociados a una cierta estructura temporal de una señal de audio actual, se introducirá cierta preservación de la estructura temporal también en los coeficientes espectrales que se rellenan.
Puede observarse que la Figura 4 ilustra un dispositivo de tratamiento de señales para su uso en un descodificador espectral perceptual. El dispositivo de tratamiento de señales comprende una entrada para coeficientes espectrales descodificados de un conjunto inicial de coeficientes espectrales. El dispositivo de tratamiento de señales comprende, además, un módulo de llenado espectral conectado a la entrada y dispuesto para llevar a cabo un llenado espectral del conjunto inicial de coeficientes espectrales obteniendo un conjunto de coeficientes espectrales reconstruidos. El módulo de llenado espectral comprende un módulo de llenado con ruido para llenar con ruido huecos espectrales fijando coeficientes espectrales del conjunto inicial de coeficientes espectrales que presentan una magnitud cero o que no están descodificados, de manera que sean iguales a elementos obtenidos a partir de los coeficientes espectrales descodificados. El dispositivo de tratamiento de señales comprende, también, una salida para el conjunto de coeficientes espectrales reconstruidos.
El proceso se ilustra esquemáticamente en las Figs. 5A-B. En este caso, se muestra que la primera etapa del procedimiento de llenado con ruido se basa en la construcción del libro de códigos espectral a partir de los coeficientes espectrales, por ejemplo, los coeficientes de transformación. Esta etapa se logra concatenando los coeficientes espectrales, perceptualmente relevantes, del espectro descodificado En la presente realización, el espectro descodificado se divide en grupos de coeficientes espectrales. No obstante, los principios que se presentan son aplicables a cualquier agrupamiento de este tipo. A continuación, un caso especial es cuando cada coeficiente espectral XQ[k] constituye su propio grupo, es decir, equivalente a una situación sin ningún agrupamiento en absoluto. El espectro descodificado de la Figura 5A tiene varias series de coeficientes cero o coeficientes no descodificados, indicados con rectángulos negros, a los cuales se les denomina habitualmente huecos espectrales. Los grupos de coeficientes espectrales [fc] aparecen típicamente con una cierta longitud L. Esta longitud puede ser una longitud fija o un valor determinado por el proceso de cuantificación y codificación.
Basándose en el hecho de que los huecos espectrales resultantes del proceso de cuantificación y codificación no son perceptualmente relevantes, el libro de códigos espectral se materializa, en esta realización, a partir de los grupos de coeficientes espectrales |7í] o, de manera equivalente, subbandas espectrales, que no tienen solamente ceros. Por ejemplo, en esta realización una subbanda de longitud L con Z ceros (Z<L) formará parte del libro de códigos puesto que una parte de la subbanda ha sido codificada, es decir, cuantificada. De esta manera, el tamaño del libro del código se define de manera adaptativa al contenido perceptualmente relevante del espectro de entrada.
En otras realizaciones, cuando se genera el libro de códigos espectral se pueden usar otros criterios de selección. Uno de los posibles criterios a incluir en el libro de códigos espectral podría ser que no se permita que ninguno de los coeficientes espectrales de un cierto grupo de coeficientes espectrales [/c] quede indefinido o sea igual a cero. Esto reduce las posibilidades de selección dentro del libro de códigos espectral, pero, al mismo tiempo, garantiza que todos los elementos del libro de códigos espectral lleven cierta información de estructura temporal. Tal como percibirá cualquier persona versada en la materia, existe un sinfín de variaciones de posibles criterios para seleccionar elementos adecuados que se obtienen a partir de los coeficientes espectrales descodificados.
Cuando se solicita el llenado de un hueco espectral, en esta realización se propone llenar los huecos espectrales con elementos del libro de códigos espectral. Esto se lleva a cabo con el fin de reducir artefactos de cuantificación y codificación típicos. Una de las mejoras de la presente invención en comparación con la técnica anterior se basa en el hecho de que el llenado espectral se logra con partes del propio espectro perceptualmente relevante y, con ello, se facilita la preservación de la estructura temporal de la señal original. Típicamente, la inyección de ruido blanco propuesta por los esquemas de llenado con ruido del estado de la técnica [1] no cumple el importante requisito de preservación de la estructura temporal, lo cual significa que pueden generarse artefactos de pre-eco. Por el contrario, el llenado espectral de acuerdo con la presente realización no introducirá artefactos de pre-eco aunque reduciendo todavía los artefactos de cuantificación y codificación.
Tal como se muestra en la Figura 5B, los elementos del libro de códigos espectral se usan para llenar los huecos espectrales, por ejemplo, sucesión de Z=L ceros, preferentemente hasta una frecuencia de transición. La frecuencia de transición puede ser definida por el codificador y, a continuación, se puede transmitir al descodificador, o puede ser determinada de manera adaptativa por el descodificador a partir del contenido de la señal de audio. Se supone, entonces, que la frecuencia de transición se define en el descodificador de la misma manera que lo habría hecho el codificador, por ejemplo, sobre la base del número de coeficientes codificados por subbanda.
Puesto que la longitud total de todos los huecos espectrales puede ser mayor que la longitud del libro de códigos espectral, puede que tengan que usarse los mismos elementos del libro de códigos para llenar varios huecos espectrales.
La elección de los elementos del libro de códigos espectral usados para el llenado se puede realizar siguiendo uno o varios criterios. Uno de los criterios, que se corresponde con la realización ilustrada en la Figura 5B, consiste en usar los elementos del libro de códigos espectral en el orden de los índices, preferentemente comenzando en el extremo de baja frecuencia. Si los índices del conjunto de coeficientes espectrales se indican con i y los índices del libro de códigos espectral se indican con j, los pares (i, j) pueden representar la estrategia de llenado. El planteamiento del orden de los índices se puede expresar, entonces, como un llenado a ciegas de los huecos espectrales incrementando el índice j del libro de códigos en la misma medida que el índice i. Esto se usa para cubrir todos los huecos espectrales. Si hay más huecos espectrales que elementos en el libro de códigos espectral, la aplicación de los elementos del libro de códigos espectral puede comenzar desde el inicio nuevamente, es decir, mediante un uso cíclico del libro de códigos espectral, cuando se hayan utilizado todos los elementos del libro de códigos espectral.
Para definir los pares (i, j) también podrían usarse otros criterios, por ejemplo, la distancia espectral, por ejemplo, frecuencia, entre los coeficientes de los huecos espectrales y los elementos del libro de códigos. De esta manera, puede garantizarse, por ejemplo, que la estructura temporal utilizada se basa en coeficientes espectrales asociados a una frecuencia que no está demasiado lejos del hueco espectral a llenar. Típicamente, se cree que resulta más adecuado llenar huecos espectrales con elementos asociados a una frecuencia que es inferior a la frecuencia del hueco espectral a llenar.
Otro de los criterios consiste en considerar la energía de los vecinos del hueco espectral, de manera que los elementos inyectados del libro de códigos encajen de una manera uniforme con los coeficientes codificados recuperados. En otras palabras, el módulo de llenado con ruido se dispone para seleccionar los elementos del libro de códigos espectral sobre la base de una energía de un coeficiente espectral descodificado adyacente a un hueco espectral a llenar y una energía del elemento seleccionado.
También podría considerarse una combinación de dichos criterios.
En la realización anterior, el libro de códigos espectral comprende coeficientes espectrales descodificados de una trama en curso de la señal de audio. Existen también dependencias temporales que traspasan los límites de la trama. En una realización alternativa, para utilizar dichas dependencias temporales intertrama, sería posible, por ejemplo, guardar partes de un libro de códigos espectral de una trama a otra. En otras palabras, el libro de códigos espectral puede comprender coeficientes espectrales descodificados de al menos una de entre una trama anterior y una trama futura.
Los elementos del libro de códigos espectral, según se ha indicado en las realizaciones anteriores, se pueden corresponder directamente con ciertos coeficientes espectrales descodificados. No obstante, es también posible disponer el módulo de llenado con ruido para que comprenda, además, un post-procesador. El postprocesador está dispuesto para el postprocesado de los elementos del libro de códigos espectral. Esto conduce a que el módulo de llenado con ruido debe disponerse para seleccionar los elementos del libro de códigos espectral postprocesado. De esta manera, ciertas dependencias, en frecuencia y/o en espacio temporal, se pueden suavizar, reduciendo la influencia, por ejemplo, del ruido de cuantificación o de codificación.
El uso de un libro de códigos espectral es una implementación práctica de la disposición en la que huecos espectrales se fijan de manera que sean iguales a elementos obtenidos a partir de los coeficientes espectrales descodificados. No obstante, en modalidades alternativas también pueden implementarse soluciones simples. En lugar de escoger explícitamente los candidatos a elementos de llenado en un libro de códigos aparte, la selección y/o la obtención de elementos a usar para el llenado de huecos espectrales se puede llevar a cabo directamente a partir de los coeficientes espectrales descodificados del conjunto.
En realizaciones preferidas, el módulo de llenado espectral del descodificador está dispuesto, además, para proporcionar una extensión del ancho de banda. En la Figura 6, se ilustra una realización de un descodificador 40, en la cual el módulo 43 de llenado espectral comprende, adicionalmente, un extensor 55 de ancho de banda. El extensor 55 de ancho de banda, como tal conocido en la técnica anterior, incrementa la región de frecuencia en la cual hay disponibles coeficientes espectrales en el extremo de alta frecuencia. En una situación típica, los coeficientes espectrales recuperados se proporcionan principalmente por debajo de una frecuencia de transición. Todos los huecos espectrales de ese lugar se rellenan con el llenado de ruido antes descrito. En frecuencias por encima de la frecuencia de transición, típicamente no hay disponible ningún coeficiente espectral recuperado o unos pocos. Por lo tanto, típicamente esta región frecuencial es desconocida, y tiene bastante poca importancia para la percepción. Extendiendo los coeficientes espectrales disponibles también dentro de esta región, se puede proporcionar un conjunto completo de coeficientes espectrales adecuados, por ejemplo, para una transformación inversa. En resumen, el llenado de ruido se realiza típicamente para frecuencias por debajo de la frecuencia de transición, y la extensión del ancho de banda se realiza típicamente para frecuencias por encima de la frecuencia de transición.
En una realización particular, ilustrada en la Figura 7, el extensor 55 de ancho de banda se considera como parte del módulo 50 de llenado con ruido. En esta realización particular, el extensor 55 de ancho de banda comprende una sección 56 de plegamiento espectral, en la cual se generan coeficientes espectrales de alta frecuencia mediante plegamiento espectral con el fin de construir una señal de audio de ancho de banda completo. En otras palabras, el proceso sintetiza un espectro de alta frecuencia a partir del espectro llenado, en la presente realización mediante plegamiento espectral sobre la base del valor de la frecuencia de transición.
La Figura 8A describe una realización de una generación de ancho de banda completo. La misma se basa en un plegamiento espectral del espectro por debajo de la frecuencia de transición hasta el espectro de alta frecuencia, es decir, básicamente ceros por encima de la frecuencia de transición. Para llevar a cabo esto, los ceros en frecuencias por encima de la frecuencia de transición se llenan con el espectro llenado de baja frecuencia. En la presente realización, de entre frecuencias justo por debajo de la frecuencia de transición se selecciona una longitud del espectro llenado de baja frecuencia igual a la mitad de la longitud del espectro de alta frecuencia a llenar. A continuación, se materializa una primera copia espectral con respecto a un punto de simetría definido por la frecuencia de transición. Finalmente, a continuación se usa también la primera media parte del espectro de alta frecuencia para generar la segunda media parte del espectro de alta frecuencia mediante un plegamiento adicional. Este procedimiento puede considerarse como una implementación específica del método general el cual se puede describir de la manera siguiente. El espectro por encima de la frecuencia de transición (Z coeficientes de transformación) se divide en U (U>2) unidades espectrales o bloques en función de la estructura armónica de la señal (por ejemplo, señal de voz) o cualquier otro criterio adecuado. De hecho, si la señal original presenta una estructura armónica fuerte, entonces resulta apropiado reducir la longitud de la parte del espectro usada para el plegamiento (incrementar U) con el fin de evitar artefactos molestos.
En una realización alternativa, descrita en la Figura 8B, también se usa en este caso para el plegamiento espectral una sección del espectro llenado de baja frecuencia justo por debajo de la frecuencia de transición. Si la extensión pretendida del ancho de banda Z es inferior o igual a la mitad del espectro llenado de baja frecuencia disponible (N-Z)/2, se selecciona una sección del espectro llenado de baja frecuencia correspondiente a la longitud del espectro alto a llenar, y la misma se pliega sobre la alta frecuencia en torno a la frecuencia de transición. No obstante, si la extensión pretendida del ancho de banda Z es mayor que la mitad del espectro llenado de baja frecuencia disponible (N-Z)/2, es decir, en caso de que N < 3*Z, se selecciona únicamente la mitad del espectro llenado de baja frecuencia y para empezar se pliega esta última. A continuación, se selecciona un intervalo espectral del espectro recién plegado para cubrir el resto del intervalo de alta frecuencia. Si fuera necesario, es decir, si N < 2*Z, este plegamiento se puede repetir con una tercera copia, una cuarta copia, y así sucesivamente, hasta que se cubra el intervalo completo de alta frecuencia para garantizar una continuidad espectral y una generación de una señal de ancho de banda completo.
En caso de que el espectro de alta frecuencia, por encima de la frecuencia de transición, no esté lleno completamente con coeficientes cero o no definidos, lo cual significa que, de hecho, se han codificado o cuantificado perceptualmente algunos coeficientes de transformación, entonces, preferentemente el plegamiento espectral no debería sustituir, modificar o incluso suprimir estos coeficientes, según se indica en la Figura 8B.
En la Figura 9, se ilustra una realización de un descodificador 40 que presenta también la aplicación de la envolvente de llenado espectral. Con este fin, el módulo 50 de llenado con ruido comprende una sección 57 de envolvente de llenado espectral. La sección 57 de envolvente de llenado espectral está dispuesta para aplicar la envolvente de llenado espectral al espectro llenado y plegado sobre todas las subbandas, de manera que la energía final del espectro descodificado X’b[k] se aproxime a la energía del espectro original Xb[k], es decir, para conservar la energía inicial. Esto también es aplicable cuando el llenado con ruido se lleva a cabo en un dominio normalizado.
En una realización, esto se lleva a cabo usando una corrección de ganancia de subbanda que se puede escribir como:
Figure imgf000009_0002
donde las ganancias G[b] en dB vienen dadas por el valor logarítmico del error de cuantificación medio para cada subbanda b
Figure imgf000009_0001
Para llevar a cabo esto, los niveles de energía del espectro original y/o del ruido de fondo, por ejemplo, la envolvente G[b], deberían haber sido codificados y transmitidos por el codificador al descodificador en forma de información colateral.
De esta manera, la envolvente estimada de tipo señal, G[b] para las subbandas por encima de la frecuencia de transición, puede adaptar la energía del espectro llenado después del plegamiento espectral a la energía inicial del espectro original, según se describe mediante la ecuación de más arriba.
En una realización particular, se materializa una combinación de una estimación de energía de tipo señal y ruido de fondo, de una manera que depende de la frecuencia, para construir una envolvente adecuada que se usará después del llenado y el plegamiento espectral. La Figura 10 ilustra una parte de un codificador 20 usada con dichos fines. Los coeficientes espectrales 66, por ejemplo, coeficientes de transformación, se introducen en una sección de codificación de envolventes. Por medio de la cuantificación de los coeficientes espectrales se introducen errores 67 de cuantificación. La sección 60 de codificación de envolventes comprende dos estimadores; un estimador 62 de energía de tipo señal y un estimador 62 de energía de tipo ruido de fondo. Los estimadores 62, 61 están conectados a un cuantificador 63 para la cuantificación de las salidas de estimación de energía.
Tal como puede observarse en la Figura 10, en lugar de solamente usar una envolvente estimada de tipo señal, en la presente realización se propone el uso de una estimación de energía de tipo ruido de fondo para las subbandas por debajo de la frecuencia de transición. La diferencia principal con la estimación de energía de tipo señal, de las ecuaciones anteriores, se basa en el cálculo de manera que el error de cuantificación se aplanará usando una media sobre los valores logarítmicos de sus coeficientes y no un valor logarítmico de los coeficientes promediados por subbanda. La combinación de estimación de energía de tipo señal y de tipo ruido de fondo en el codificador se usa para construir una envolvente adecuada, la cual se aplica al espectro llenado en el lado del descodificador.
La Figura 11 ilustra un diagrama de flujo de etapas de una realización de un método de descodificación de acuerdo con la presente invención. El método para descodificación espectral perceptual comienza en la etapa 200. En la etapa 210, coeficientes espectrales recuperados de un flujo binario se descodifican en coeficientes espectrales descodificados de un conjunto inicial de coeficientes espectrales. En la etapa 212, se lleva a cabo un llenado espectral del conjunto inicial de coeficientes espectrales, proporcionando un conjunto de coeficientes espectrales reconstruidos. El conjunto de coeficientes espectrales reconstruidos de un dominio de frecuencia se convierte, en la etapa 216, en una señal de audio de un dominio en el tiempo. A su vez, la etapa 212 comprende una etapa 214, en la cual huecos espectrales se llenan con ruido mediante la fijación de coeficientes espectrales del conjunto inicial de coeficientes espectrales que no se han descodificado del flujo binario, de manera que sean iguales a elementos obtenidos a partir de los coeficientes espectrales descodificados. El procedimiento finaliza en la etapa 249.
Entre los procedimientos descritos en relación con los dispositivos de más arriba se encontrarán realizaciones preferidas del método.
La parte de llenado espectral del procedimiento de la Figura 11 también puede considerarse como un método aparte de tratamiento de señales que se usa de manera general en la descodificación espectral perceptual. Un método de tratamiento de señales de este tipo implica la etapa de llenado con ruido central y etapas para obtener un conjunto inicial de coeficientes espectrales y para dar salida a un conjunto de coeficientes espectrales reconstruidos.
En la Figura 12, se ilustra un diagrama de flujo de etapas de una realización preferida de dicho método de llenado con ruido de acuerdo con la presente invención. Por tanto, este método se puede usar como parte del método ilustrado en la Figura 11. El método para tratamiento de la señal comienza en la etapa 250. En la etapa 260, se obtiene un conjunto inicial de coeficientes espectrales. La etapa 270, que es una etapa de llenado espectral comprende una etapa de llenado con ruido 272, la cual, a su vez, comprende una serie de subetapas 262 a 266. En la etapa 262, a partir de coeficientes espectrales descodificados se crea un libro de códigos espectral. En la etapa 264, la cual puede omitirse, se lleva a cabo un postprocesado del libro de códigos espectral, según se ha descrito más arriba. En la etapa 266, del libro de códigos se seleccionan elementos de llenado para llenar huecos espectrales del conjunto inicial de coeficientes espectrales. En la etapa 268, se da salida a un conjunto de coeficientes espectrales recuperados. El procedimiento finaliza en la etapa 299.
La invención descrita anteriormente en el presente documento tiene muchas ventajas, algunas de las cuales se mencionarán aquí. El llenado con ruido de acuerdo con la presente invención proporciona una alta calidad en comparación, por ejemplo, con un llenado con ruido típico por inyección de ruido blanco Gaussiano estándar. Preserva la envolvente temporal original de la señal. La complejidad de la implementación de la presente invención es muy baja en comparación con soluciones acordes al estado de la técnica. El llenado con ruido en el dominio de la frecuencia se puede adaptar, por ejemplo, al esquema de codificación que se esté usando definiendo una frecuencia de transición adaptativa en el codificador y/o en el lado del descodificador.
Las realizaciones antes descritas deben interpretarse en calidad de algunos ejemplos ilustrativos de la presente invención. Aquellos versados en la materia entenderán que, en las realizaciones, pueden aplicarse diversas modificaciones, combinaciones y cambios, sin desviarse con respecto al alcance de la presente invención. En particular, diferentes soluciones parciales en las diferentes realizaciones se pueden combinar en otras configuraciones, cuando sea técnicamente posible. No obstante, el alcance de la presente invención queda definido por las reivindicaciones adjuntas.
REFERENCIAS
[1] J. D. Johnston, “Transform coding of audio signals using perceptual noise criteria”, IEEE J. Select. Areas Commun., Vol. 6, págs. 314 a 323, 1988.
[2] J. Herre, “Temporal Noise Shaping, Quantization and Coding Methods in Perceptual Audio Coding: A tutorial introduction”, AES 17th Int. conf. on High Quality Audio Coding, 1997.
[3] 3GPP TS 26.404 V6.0.0 (2004-09), “Enhanced aacPlus general audio codec - encoder SBR part (Release 6)”, 2004.

Claims (10)

REIVINDICACIONES
1. Método para la descodificación espectral perceptual de una señal de audio, que comprende las etapas de:
descodificar (210) coeficientes espectrales recuperados de un flujo binario para obtener coeficientes espectrales descodificados de un conjunto inicial de coeficientes espectrales;
llenar espectralmente (212) dicho conjunto inicial de coeficientes espectrales obteniendo un conjunto de coeficientes espectrales reconstruidos;
comprendiendo dicho llenado espectral (212) un llenado (214), con ruido, de huecos espectrales mediante la fijación de coeficientes espectrales de dicho conjunto inicial de coeficientes espectrales que no se reciben en dicho flujo binario, de manera que sean iguales a elementos obtenidos a partir de dichos coeficientes espectrales descodificados; y
convertir (216) dicho conjunto de coeficientes espectrales reconstruidos de un dominio de frecuencia en una señal de audio en un dominio en el tiempo,
caracterizado por que
dicho llenado (214) con ruido comprende, a su vez, la creación (262) de un libro de códigos espectral concatenando los coeficientes espectrales perceptualmente relevantes de dichos coeficientes espectrales descodificados, con lo cual dicho llenado (214), con ruido, de huecos espectrales comprende la fijación de coeficientes espectrales en dicho conjunto inicial de coeficientes espectrales de manera que sean iguales a elementos seleccionados (266) de dicho libro de códigos espectral de acuerdo con por lo menos un criterio; uno del por lo menos un criterio es seleccionar (266) elementos de dicho libro de códigos espectral en un orden de índices comenzando desde el extremo de baja frecuencia, en donde se asignan índices i a los coeficientes espectrales y se asignan índices j a los elementos del libro de códigos espectral, en donde los huecos espectrales se llenan a ciegas incrementando el índice j en la misma medida que el índice i, y mediante un uso cíclico del libro de códigos espectral en caso de que haya más huecos espectrales que elementos en el libro de códigos espectral.
2. Método según la reivindicación 1, caracterizado por que dicho libro (51) de códigos espectral comprende elementos basados en coeficientes espectrales descodificados, perceptualmente relevantes, de una trama en curso.
3. Método según la reivindicación 1 ó 2, caracterizado por que dicho libro de códigos espectral comprende elementos basados en coeficientes espectrales descodificados, perceptualmente relevantes, de por lo menos una de una trama anterior y una trama futura.
4. Método según cualquiera de las reivindicaciones 1 a 3, caracterizado por que dicho llenado (214) con ruido comprende, además, el postprocesado (264) de dicho libro de códigos espectral para suavizar ciertas dependencias en frecuencia y/o en el espacio temporal, con lo cual dichos elementos se seleccionan (266) de dicho libro de códigos espectral postprocesado.
5. Método según cualquiera de las reivindicaciones 1 a 4, caracterizado por que dicha conversión (216) comprende una transformación inversa usando al menos uno de una transformada inversa y un banco de filtros inverso.
6. Descodificador espectral perceptual (40), que comprende:
una entrada para un flujo binario (25);
un descodificador (41) de coeficientes espectrales dispuesto para descodificar coeficientes espectrales recuperados de dicho flujo binario (25) obteniendo coeficientes espectrales descodificados de un conjunto inicial de coeficientes espectrales (42);
un módulo (43) de llenado espectral conectado a dicho descodificador (41) de coeficientes espectrales y dispuesto para un llenado espectral de dicho conjunto inicial de coeficientes espectrales (42) obteniendo un conjunto de coeficientes espectrales reconstruidos;
comprendiendo dicho módulo (43) de llenado espectral un módulo (50) de llenado con ruido para llenar, con ruido, huecos espectrales mediante la fijación de coeficientes espectrales en dicho conjunto inicial de coeficientes espectrales (42) que no se han descodificado de dicho flujo binario (25), de manera que sean iguales a elementos obtenidos a partir de dichos coeficientes espectrales descodificados; y
un conversor (45) conectado a dicho módulo (43) de llenado espectral y dispuesto para convertir dicho conjunto de coeficientes espectrales reconstruidos de un dominio de la frecuencia, en una señal (34) de audio de un dominio en el tiempo; y
una salida (35) para dicha señal (34) de audio,
caracterizado por que
dicho módulo (50) de llenado con ruido comprende, a su vez, un generador (51) de libros de códigos espectrales;
estando dispuesto dicho generador (51) de libros de códigos espectrales para crear un libro de códigos espectral concatenando los coeficientes espectrales, perceptualmente relevantes, de dichos coeficientes espectrales descodificados;
estando dispuesto dicho módulo (50) de llenado con ruido para llenar dichos huecos espectrales con elementos seleccionados de dicho libro de códigos espectral de acuerdo con por lo menos un criterio; uno del por lo menos un criterio es seleccionar dichos elementos de dicho libro de códigos espectral en un orden de índices, comenzando desde el extremo de baja frecuencia, en donde se asignan índices i a los coeficientes espectrales y se asignan índices j a los elementos del libro de códigos espectral, en donde los huecos espectrales se llenan a ciegas incrementando el índice j en la misma medida que el índice i, y mediante un uso cíclico del libro de códigos espectral en caso de que haya más huecos espectrales que elementos en el libro de códigos espectral.
7. Descodificador espectral perceptual según la reivindicación 6, caracterizado por que dicho generador (51) de libros de códigos espectrales está dispuesto para crear dicho libro de códigos espectrales de manera que comprende elementos basados en coeficientes espectrales descodificados, perceptualmente relevantes, de una trama en curso.
8. Descodificador espectral perceptual según la reivindicación 6 ó 7, caracterizado por que dicho generador (51) de libros de códigos espectrales está dispuesto para crear dicho libro de códigos espectral de manera que comprenda elementos basados en coeficientes espectrales descodificados, perceptualmente relevantes, de por lo menos una de una trama anterior y una trama futura.
9. Descodificador espectral perceptual según cualquiera de las reivindicaciones 6 a 8, caracterizado por que dicho módulo (50) de llenado con ruido comprende, además, un postprocesador dispuesto para el postprocesado de dicho libro de códigos espectral, con lo cual dicho módulo (50) de llenado con ruido está dispuesto para seleccionar dichos elementos a partir de dicho libro de códigos espectral postprocesado.
10. Descodificador espectral perceptual según cualquiera de las reivindicaciones 6 a 9, caracterizado por que dicho conversor (45) comprende por lo menos uno de una sección de transformada inversa y un banco de filtros inverso.
ES08828426T 2007-08-27 2008-08-26 Método y dispositivo para la descodificación espectral perceptual de una señal de audio, que incluyen el llenado de huecos espectrales Active ES2704286T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US96823007P 2007-08-27 2007-08-27
PCT/SE2008/050968 WO2009029036A1 (en) 2007-08-27 2008-08-26 Method and device for noise filling

Publications (1)

Publication Number Publication Date
ES2704286T3 true ES2704286T3 (es) 2019-03-15

Family

ID=40387560

Family Applications (3)

Application Number Title Priority Date Filing Date
ES18176984T Active ES2774956T3 (es) 2007-08-27 2008-08-26 Método y dispositivo para la descodificación espectral perceptual de una señal de audio, que incluyen el llenado de huecos espectrales
ES19194270T Active ES2858423T3 (es) 2007-08-27 2008-08-26 Método y dispositivo para el llenado de huecos espectrales
ES08828426T Active ES2704286T3 (es) 2007-08-27 2008-08-26 Método y dispositivo para la descodificación espectral perceptual de una señal de audio, que incluyen el llenado de huecos espectrales

Family Applications Before (2)

Application Number Title Priority Date Filing Date
ES18176984T Active ES2774956T3 (es) 2007-08-27 2008-08-26 Método y dispositivo para la descodificación espectral perceptual de una señal de audio, que incluyen el llenado de huecos espectrales
ES19194270T Active ES2858423T3 (es) 2007-08-27 2008-08-26 Método y dispositivo para el llenado de huecos espectrales

Country Status (12)

Country Link
US (2) US8370133B2 (es)
EP (3) EP3591650B1 (es)
JP (1) JP5255638B2 (es)
CN (1) CN101809657B (es)
CA (1) CA2698031C (es)
DK (3) DK3401907T3 (es)
ES (3) ES2774956T3 (es)
HU (2) HUE047607T2 (es)
MX (1) MX2010001504A (es)
PL (2) PL3401907T3 (es)
PT (1) PT2186089T (es)
WO (1) WO2009029036A1 (es)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
CN101939782B (zh) 2007-08-27 2012-12-05 爱立信电话股份有限公司 噪声填充与带宽扩展之间的自适应过渡频率
DK3401907T3 (da) * 2007-08-27 2020-03-02 Ericsson Telefon Ab L M Fremgangsmåde og indretning til perceptuel spektral afkodning af et audiosignal omfattende udfyldning af spektrale huller
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
KR101518532B1 (ko) 2008-07-11 2015-05-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램
KR101390433B1 (ko) * 2009-03-31 2014-04-29 후아웨이 테크놀러지 컴퍼니 리미티드 신호 잡음 제거 방법, 신호 잡음 제거 장치, 및 오디오 디코딩 시스템
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US20120029926A1 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US9208792B2 (en) * 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
WO2012037515A1 (en) 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US20130173275A1 (en) * 2010-10-18 2013-07-04 Panasonic Corporation Audio encoding device and audio decoding device
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
WO2012122299A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Bit allocation and partitioning in gain-shape vector quantization for audio coding
WO2012122297A1 (en) * 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
CN105448298B (zh) * 2011-03-10 2019-05-14 瑞典爱立信有限公司 填充变换编码音频信号中的非编码子向量
ES2559040T3 (es) 2011-03-10 2016-02-10 Telefonaktiebolaget Lm Ericsson (Publ) Relleno de subvectores no codificados en señales de audio codificadas por transformada
DK3067888T3 (en) 2011-04-15 2017-07-10 ERICSSON TELEFON AB L M (publ) DECODES FOR DIMAGE OF SIGNAL AREAS RECONSTRUCTED WITH LOW ACCURACY
RU2648595C2 (ru) 2011-05-13 2018-03-26 Самсунг Электроникс Ко., Лтд. Распределение битов, кодирование и декодирование аудио
JP2013015598A (ja) * 2011-06-30 2013-01-24 Zte Corp オーディオ符号化/復号化方法、システム及びノイズレベルの推定方法
MX350162B (es) 2011-06-30 2017-08-29 Samsung Electronics Co Ltd Aparato y método para generar señal extendida de ancho de banda.
JP5416173B2 (ja) * 2011-07-07 2014-02-12 中興通訊股▲ふん▼有限公司 周波数帯コピー方法、装置及びオーディオ復号化方法、システム
CN103366750B (zh) * 2012-03-28 2015-10-21 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
CN103854653B (zh) * 2012-12-06 2016-12-28 华为技术有限公司 信号解码的方法和设备
AU2014211544B2 (en) 2013-01-29 2017-03-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling in perceptual transform audio coding
EP2830065A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
WO2015041070A1 (ja) 2013-09-19 2015-03-26 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
JP6396459B2 (ja) * 2013-10-31 2018-09-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 周波数領域における時間的予備整形雑音の挿入によるオーディオ帯域幅拡張
KR20230042410A (ko) 2013-12-27 2023-03-28 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
CN106463143B (zh) 2014-03-03 2020-03-13 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
KR102653849B1 (ko) 2014-03-24 2024-04-02 삼성전자주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
JP6432180B2 (ja) * 2014-06-26 2018-12-05 ソニー株式会社 復号装置および方法、並びにプログラム
EP2980792A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
US10163446B2 (en) * 2014-10-01 2018-12-25 Dolby International Ab Audio encoder and decoder
EP3182411A1 (en) * 2015-12-14 2017-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an encoded audio signal
WO2019081089A1 (en) * 2017-10-27 2019-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. MITIGATION OF NOISE AT THE LEVEL OF A DECODER
WO2019172811A1 (en) * 2018-03-08 2019-09-12 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for handling antenna signals for transmission between a base unit and a remote unit of a base station system
KR20230058546A (ko) * 2018-04-05 2023-05-03 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) 컴포트 노이즈 생성 지원
KR102645659B1 (ko) 2019-01-04 2024-03-11 삼성전자주식회사 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JP3276977B2 (ja) * 1992-04-02 2002-04-22 シャープ株式会社 音声符号化装置
US6157811A (en) * 1994-01-11 2000-12-05 Ericsson Inc. Cellular/satellite communications system with improved frequency re-use
US5619503A (en) * 1994-01-11 1997-04-08 Ericsson Inc. Cellular/satellite communications system with improved frequency re-use
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
ATE320651T1 (de) * 2001-05-08 2006-04-15 Koninkl Philips Electronics Nv Kodieren eines audiosignals
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
CA2388358A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for multi-rate lattice vector quantization
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
TWI288915B (en) * 2002-06-17 2007-10-21 Dolby Lab Licensing Corp Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US20050267739A1 (en) * 2004-05-25 2005-12-01 Nokia Corporation Neuroevolution based artificial bandwidth expansion of telephone band speech
MX2007012187A (es) 2005-04-01 2007-12-11 Qualcomm Inc Sistemas, metodos y aparatos para deformacion en tiempo de banda alta.
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7894489B2 (en) * 2005-06-10 2011-02-22 Symmetricom, Inc. Adaptive play-out buffers and adaptive clock operation in packet networks
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
DK3401907T3 (da) * 2007-08-27 2020-03-02 Ericsson Telefon Ab L M Fremgangsmåde og indretning til perceptuel spektral afkodning af et audiosignal omfattende udfyldning af spektrale huller
CN101939782B (zh) * 2007-08-27 2012-12-05 爱立信电话股份有限公司 噪声填充与带宽扩展之间的自适应过渡频率

Also Published As

Publication number Publication date
US20100241437A1 (en) 2010-09-23
US8370133B2 (en) 2013-02-05
EP3401907B1 (en) 2019-11-20
EP2186089A4 (en) 2011-12-28
HUE041323T2 (hu) 2019-05-28
EP2186089A1 (en) 2010-05-19
PT2186089T (pt) 2019-01-10
ES2774956T3 (es) 2020-07-23
DK3591650T3 (da) 2021-02-15
CA2698031A1 (en) 2009-03-05
JP2010538317A (ja) 2010-12-09
JP5255638B2 (ja) 2013-08-07
CA2698031C (en) 2016-10-18
CN101809657B (zh) 2012-05-30
US9111532B2 (en) 2015-08-18
US20130218577A1 (en) 2013-08-22
WO2009029036A1 (en) 2009-03-05
EP2186089B1 (en) 2018-10-03
MX2010001504A (es) 2010-03-10
PL3591650T3 (pl) 2021-07-05
HUE047607T2 (hu) 2020-05-28
EP3591650B1 (en) 2020-12-23
DK2186089T3 (en) 2019-01-07
ES2858423T3 (es) 2021-09-30
EP3591650A1 (en) 2020-01-08
EP3401907A1 (en) 2018-11-14
PL3401907T3 (pl) 2020-05-18
DK3401907T3 (da) 2020-03-02
CN101809657A (zh) 2010-08-18

Similar Documents

Publication Publication Date Title
ES2704286T3 (es) Método y dispositivo para la descodificación espectral perceptual de una señal de audio, que incluyen el llenado de huecos espectrales
KR100882752B1 (ko) 인코드된 음향신호의 디코딩에 관한 에러 은폐
US9711154B2 (en) Adaptive transition frequency between noise fill and bandwidth extension
ES2237706T3 (es) Reconstruccion de componentes de alta frecuencia.
KR101586317B1 (ko) 신호 처리 방법 및 장치
JP6926273B2 (ja) 高調波転換
KR101246991B1 (ko) 오디오 신호 처리 방법
ES2356492T3 (es) Método de conmutación de tasa de transmisión en decodificación de audio escalable en tasa de transmisión y ancho de banda.
ES2732952T3 (es) Decodificador de audio y procedimiento para proporcionar una información de audio decodificada usando un ocultamiento de error basado en una señal de excitación en el dominio del tiempo
JP7472154B2 (ja) 完全フレーム損失隠蔽および部分的フレーム損失隠蔽を含む、lc3隠蔽のためのデコーダおよび復号方法
ES2703873T3 (es) Codificación/descodificación de la transformada de señales armónicas de audio
ES2400987T3 (es) Atenuación de pre-ecos en una señal de audio digital
ES2826324T3 (es) Transposición armónica mejorada
Zhang Perceptual data embedding in audio and speech signals