ES2744100T3

ES2744100T3 - Decodificador de audio con corrección de ganancia post-cuantificación

Info

Publication number: ES2744100T3
Application number: ES17173430T
Authority: ES
Inventors: Erik Norvell; Volodya Grancharov
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2011-03-04
Filing date: 2011-07-04
Publication date: 2020-02-21
Anticipated expiration: 2031-07-04
Also published as: CN103443856A; US10460739B2; CN105225669B; US11056125B2; PL3244405T3; PT2681734T; PL2681734T3; EP3244405A1; CN105225669A; EP2681734B1; US20170330573A1; EP2681734A1; US20200005803A1; US20210287688A1; US20130339038A1; EP3244405B1; US10121481B2; CN103443856B; DK3244405T3; TR201910075T4

Abstract

Un decodificador (300) de audio para decodificar una señal de audio que ha sido codificada con representaciones separadas de ganancia y de forma, comprendiendo dicho decodificador de audio: medios (42) para decodificar una representación (E(b)) de ganancia codificada; medios (44) para derivar una asignación de bits para una representación de forma; medios (46) para decodificar una representación ( ) de forma codificada, en donde la forma ha sido codificada usando un esquema de codificación de vector de impulso, en donde pueden estar añadidos impulsos unos encima de otros para formar impulsos de diferente altura; medios (62) para estimar una medida (A(b)) de precisión de la representación ( ) de forma, para una banda (b) de frecuencia, comprendiendo la banda (b) de frecuencia una pluralidad de coeficientes, en donde la medida (A(b)) de precisión está basada en un número de impulsos (R(b)) y una altura de un impulso máximo (pmax(b)), y para determinar una corrección (gc(b)) de ganancia, en donde la corrección (gc(b)) de ganancia está determinada en base a la medida (A(b)) de precisión estimada; medios (64) para ajustar la representación (E(b)) de ganancia en base a la corrección de ganancia determinada.

Description

DESCRIPCIÓN

Decodificador de audio con corrección de ganancia post-cuantificación

Campo técnico

La presente tecnología se refiere a la corrección de ganancia en la codificación de audio basándose en esquemas de cuantificación donde la cuantificación se divide en una representación de ganancia y una representación de forma, denominada codificación de audio de forma-ganancia, y especialmente para corrección de ganancia postcuantificación.

Antecedentes

Se espera que los servicios de telecomunicaciones modernos manejen muchos tipos diferentes de señales de audio. Si bien el contenido de audio principal son las señales de voz, existe el deseo de manejar señales más generales como música y mezclas de música y voz. Aunque la capacidad en las redes de telecomunicaciones está aumentando continuamente, sigue siendo de gran interés limitar el ancho de banda requerido por canal de comunicación. En las redes móviles, los anchos de banda de transmisión más pequeños para producen un consumo de energía menor tanto en el dispositivo móvil como en la estación base. Esto se traduce en ahorro de energía y de costes para el operador móvil, mientras que el usuario final experimentará una duración prolongada de la batería y un aumento del tiempo de conversación. Además, con menos ancho de banda consumido por usuario, la red móvil puede atender a un mayor número de usuarios en paralelo.

Hoy en día, la tecnología de compresión dominante para servicios de voz móviles es CELP (predicción lineal excitada por código), que logra una buena calidad de audio para la voz en anchos de banda bajos. Es ampliamente utilizado en códecs desplegados como AMR (multivelocidad adaptativa), AMR-WB (ancho de banda de velocidad adaptativa) y GSM-EFR (sistema global para comunicaciones móviles - velocidad completa mejorada). Sin embargo, para señales de audio generales, como la música, la tecnología CELP tiene un rendimiento bajo. Estas señales pueden a menudo ser mejor representadas mediante el uso de codificación basada en la transformada de frecuencia, por ejemplo los códecs ITU-T G.722.1 [1] y G.719 [2]. Sin embargo, los códecs de dominio de transformada operan generalmente a una velocidad de bits mayor que los códecs de voz. Existe una brecha entre los dominios de voz y de audio general en términos de codificación y es deseable aumentar el rendimiento de los códecs de dominio de transformada a velocidades de bits más bajas.

Los códecs de dominio de transformada requieren una representación compacta de los coeficientes de transformada del dominio frecuencia. Estas representaciones a menudo se basan en la cuantificación vectorial (VQ), donde los coeficientes se codifican en grupos. Entre los diversos métodos para la cuantificación vectorial está la VQ de formaganancia. Este enfoque aplica la normalización a los vectores antes de codificar los coeficientes individuales. El factor de normalización y los coeficientes normalizados se denominan la ganancia y la forma del vector, que puede codificarse por separado. La estructura de forma-ganancia tiene muchos beneficios. Al dividir la ganancia y la forma, el códec se puede adaptar fácilmente a diferentes niveles de entrada de fuente mediante el diseño del cuantificador de ganancia. También es beneficioso desde una perspectiva perceptual donde la ganancia y la forma pueden tener diferente importancia en diferentes regiones de frecuencia. Por último, la división de forma-ganancia simplifica el diseño del cuantificador y lo hace menos complejo en términos de memoria y recursos computacionales en comparación con un cuantificador de vector sin restricciones. En la figura 1 se puede ver una descripción funcional de un cuantificador de forma-ganancia.

Si se aplica a un espectro de dominio frecuencia, la estructura de forma-ganancia se puede utilizar para formar una envolvente espectral y una representación de estructura fina. La secuencia de valores de ganancia forma la envolvente del espectro mientras que los vectores de forma dan el detalle espectral. Desde una perspectiva perceptual es beneficioso dividir el espectro utilizando una estructura de banda no uniforme que sigue la resolución de frecuencia del sistema auditivo humano. Esto generalmente significa que anchos de banda estrechos se utilizan para frecuencias bajas, mientras que anchos de banda más grandes se utilizan para altas frecuencias. La importancia perceptual de la estructura fina espectral varía con la frecuencia, pero también depende de las características de la propia señal. Los codificadores de transformada emplean a menudo un modelo auditivo para determinar las partes importantes de la estructura fina y asignar los recursos disponibles a las partes más importantes. La envolvente espectral se utiliza a menudo como entrada a este modelo auditivo. El codificador de forma cuantifica los vectores de forma utilizando los bits asignados. Véase la figura 2 para un ejemplo de un sistema de codificación basado en la transformada con un modelo auditivo.

Dependiendo de la precisión del cuantificador de forma, el valor de ganancia utilizado para reconstruir el vector puede ser más o menos apropiado. Especialmente cuando los bits asignados son pocos, el valor de ganancia se aleja del valor óptimo. Una forma de resolver esto es codificar un factor de corrección que explique el desajuste de ganancia después de la cuantificación de forma. Otra solución es codificar primero la forma y luego calcular el factor de ganancia óptima dada la forma cuantificada.

La solución para codificar un factor de corrección de ganancia después de la cuantificación de forma puede consumir una velocidad de bits considerable. Si la velocidad es ya baja, esto significa que se deben tomar más bits en otros lugares y tal vez puede reducir la velocidad de bits disponible para la estructura fina.

Para codificar la forma antes de codificar la ganancia es una solución mejor, pero si la velocidad de bits para el cuantificador de forma se decide a partir del valor de ganancia cuantificado, entonces la ganancia y la cuantificación de forma dependerían entre sí. Una solución iterativa podría resolver esta codependencia, pero podría resultar demasiado compleja para ejecutarse en tiempo real en un dispositivo móvil.

El documento US 2011/002266 A1 (Yang Gao) describe un post-procesamiento de dominio frecuencia basándose en enmascaramiento perceptual, donde un factor de ganancia de modificación adaptativa se aplica a cada coeficiente de frecuencia con el fin de mejorar la calidad percibida de los coeficientes espectrales.

Sumario

Un objeto es obtener un ajuste de ganancia en la decodificación de audio que se ha codificado con representaciones separadas de ganancia y forma.

Este objeto se consigue de acuerdo con las reivindicaciones adjuntas.

Un primer aspecto implica un decodificador de audio para la decodificación de una señal de audio que ha sido codificada con representaciones separadas de ganancia y de forma. El decodificador de audio comprende medios para decodificar una representación de ganancia codificada, medios para derivar una asignación de bits para una representación de forma, y medios para decodificar una representación de forma codificada, en donde la forma ha sido codificada usando un esquema de codificación de vector de impulso, en donde pueden estar añadidos impulsos unos encima de otros para formar impulsos de diferente altura. El decodificador de audio comprende además medios para estimar una medida de precisión de la representación de forma, para una banda de frecuencia, comprendiendo la banda de frecuencia una pluralidad de coeficientes, en donde la medida de precisión está basada en un número de impulsos y una altura de un impulso máximo, y para determinar una corrección de ganancia, en donde la corrección de ganancia está determinada en base a la medida de precisión estimada. También comprende medios para ajustar la representación de ganancia en base a la corrección de ganancia determinada.

Un segundo aspecto implica un nodo de red que comprende el decodificador de audio de acuerdo con el primer aspecto.

Un tercer aspecto implica un método para la decodificación de una señal de audio que ha sido codificada con representaciones separadas de ganancia y de forma. El método comprende recibir y decodificar una representación de ganancia codificada, obtener una asignación de bits para una representación de forma, y recibir y decodificar una representación de forma codificada, en donde la forma ha sido codificada usando un esquema de codificación de vector de impulso, en donde se pueden añadir impulsos unos encima de otros para formar impulsos de diferente altura. El método comprende además estimar una medida de precisión de la representación de forma, para una banda de frecuencia, comprendiendo la banda de frecuencia una pluralidad de coeficientes, en donde la medida de precisión se basa en un número de impulsos y una altura de un impulso máximo. El método comprende además determinar una corrección de ganancia en base a la medida de precisión estimada, y ajustar la representación de ganancia en base a la corrección de ganancia determinada.

El esquema propuesto para la corrección de ganancia mejora la calidad percibida de un sistema de codificación de audio de forma-ganancia. El esquema tiene una complejidad computacional baja y requiere pocos bits adicionales, si los hay.

Breve descripción de los dibujos

La presente tecnología, junto con otros objetivos y ventajas de la misma, puede entenderse mejor haciendo referencia a la siguiente descripción tomada junto con los dibujos adjuntos, en los que:

la figura 1 ilustra un esquema de cuantificación de vector de forma-ganancia de ejemplo;

la figura 2 ilustra un esquema de codificación y decodificación de dominio de transformada de ejemplo;

la figura 3A-C ilustra la cuantificación del vector de forma-ganancia en un caso simplificado;

la figura 4 ilustra un decodificador de dominio de transformada de ejemplo que utiliza una medida de precisión para determinar una corrección de envolvente;

la figura 5A-B ilustra un resultado de ejemplo de escalar la síntesis con factores de ganancia cuando el vector de forma es un vector de impulso escaso;

la figura 6A-B ilustra cómo la altura de impulso más grande puede indicar la precisión del vector de forma;

la figura 7 ilustra un ejemplo de una función de atenuación basada en la velocidad para la realización 1;

la figura 8 ilustra un ejemplo de una función de ajuste de ganancia dependiente de la altura máxima del impulso y de la velocidad para la realización 1;

la figura 9 ilustra otro ejemplo de una función de ajuste de ganancia dependiente de la altura de impulso máxima y de la velocidad para la realización 1;

la figura 10 ilustra una realización de la presente tecnología en el contexto de un sistema codificador y decodificador de audio basado en MDCT;

la figura 11 ilustra un ejemplo de una función de mapeo desde la medida de estabilidad al factor de limitación de ajuste de ganancia;

la figura 12 ilustra un ejemplo de un sistema decodificador y codificador ADPCM y con un tamaño de paso adaptativo;

la figura 13 ilustra un ejemplo en el contexto de un sistema codificador y decodificador de audio basado en ADPCM de sub-banda;

la figura 14 ilustra un ejemplo en el contexto de un sistema codificador y decodificador de audio basado en ADPCM de sub-banda;

la figura 15 ilustra un codificador de dominio de transformada de ejemplo que incluye un clasificador de señales; la figura 16 ilustra otro decodificador de dominio de transformada de ejemplo que utiliza una medida de precisión para determinar una corrección de envolvente;

la figura 17 ilustra una realización de un aparato de ajuste de ganancia de acuerdo con la presente tecnología; la figura 18 ilustra una realización de ajuste de ganancia de acuerdo con la presente tecnología con más detalle; la figura 19 es un diagrama de flujo que ilustra el método de acuerdo con la presente tecnología;

la figura 20 es un diagrama de flujo que ilustra una realización del método de acuerdo con la presente tecnología; y la figura 21 ilustra una realización de una red de acuerdo con la tecnología actual.

Descripción detallada

En la siguiente descripción se utilizarán las mismas designaciones de referencia para elementos que realicen la misma función o una función similar.

Antes de describir la presente tecnología en detalle, la codificación de forma-ganancia se ilustrará con referencia a las figuras 1-3.

La figura 1 ilustra un esquema de cuantificación de vector de forma-ganancia de ejemplo. La parte superior de la figura ilustra el lado del codificador. Un vector x de entrada se envía a una calculadora 10de normalización, que determina la norma del vector (ganancia) g, típicamente la norma euclidiana. Esta norma exacta se cuantifica en un cuantificador 12 de norma, y la inversa 1/g de la norma cuantificada g se envía a un multiplicador 14 para escalar el vector x de entrada en una forma. La forma se cuantifica en un cuantificador 16 de forma. Las representaciones de la ganancia y la forma cuantificadas se envían a un multiplexor 18 de flujo de bits (mux). Estas representaciones se ilustran con líneas discontinuas para indicar que pueden, por ejemplo, constituir índices en tablas (libros de códigos) en lugar de los valores cuantificados reales.

La parte inferior de la figura 1 ilustra el lado del decodificador. Un demultiplexor 20 de flujo de bits (demux) recibe las representaciones de ganancia y forma. La representación de forma se envía a un descuantificador 22 de forma, y la representación de ganancia se envía a un descuantificador 24 de ganancia. La ganancia obtenida g se envía a un A

multiplicador 26, donde escala la forma obtenida, lo que da el vector reconstruido

La figura 2 ilustra un esquema de codificación y decodificación de dominio de transformada de ejemplo. La parte superior de la figura ilustra el lado del codificador. Una señal de entrada es enviada a un transformador de frecuencia 30, por ejemplo basándose en la Transformada Discreta de Coseno Modificada (MDCT), para producir la transformada X de frecuencia. La transformada X de frecuencia es enviada a una calculadora 32 de envolvente, la cual determina la energía E(b) de cada banda de frecuencia b. Estas energías se cuantifican en energías É(b) en un cuantificador 34 de envolvente. Las energías cuantificadas É(b) son enviadas a un normalizador 36 de envolvente, que escala los coeficientes de la banda de frecuencias b de la transformada X con la inversa de la energía cuantificada É(b) correspondiente de la envolvente. Las formas escaladas resultantes son enviadas a un cuantificador 38 de estructura fina. Las energías cuantificadas É(b) también son enviadas a un asignador 40 de bits, que asigna bits para la cuantificación de estructura fina a cada banda b de frecuencia. Como se ha indicado anteriormente, la asignación R(b) de bits puede basarse en un modelo del sistema auditivo humano. Las representaciones de las ganancias cuantificadas É(b) y las correspondientes formas cuantificadas son enviadas al multiplexor 18 de flujo de bits.

La parte inferior de la figura 2 ilustra el lado del decodificador. El demultiplexor 20 de flujo de bits recibe las representaciones de ganancia y forma. Las representaciones de ganancia son enviadas a un descuantificador 42 de envolventes. Las energías de envolvente generadas É(b) son enviadas a un asignador 44 de bits, que determina la asignación R(b) de bits de las formas recibidas. Las representaciones de forma son enviadas a un descuantificador 46 de estructura fina, que está controlado por la asignación R(b) de bits. Las formas decodificadas son enviadas a un conformador 48 de envolvente, que las escala con las energías de envolvente correspondientes É(b) para formar una transformada de frecuencia reconstruida. Esta transformada es enviada a un transformador 50 de frecuencia inverso, por ejemplo basado en la Transformada de Coseno Discreta Modificada Inversa (IMDCT), que produce una señal de salida que representa audio sintetizado.

La figura 3A-C ilustra la cuantificación de vector de forma-ganancia descrita anteriormente en un caso simplificado en el que la banda b de frecuencias está representada por el vector bidimensional X(b) en la figura 3A. Este caso es suficientemente simple para ser ilustrado en un dibujo, pero también lo suficientemente general como para ilustrar el problema con la cuantificación de forma-ganancia (en la práctica, los vectores tienen típicamente 8 o más dimensiones). El lado derecho de la figura 3A ilustra una representación exacta de forma-ganancia del vector X(b) con una ganancia É(b) y una forma (vector de longitud unitaria) N'(b).

Sin embargo, como se ilustra en la figura 3B, la ganancia exacta E(b) se codifica en una ganancia cuantificada É(b) en el lado del codificador. Dado que la inversa de la ganancia cuantificada É(b) se utiliza para escalar el vector X(b), el vector escalado resultante N(b) apuntará en la dirección correcta, pero no será necesariamente de longitud unitaria. Durante la cuantificación de forma el vector escalado N(b) se cuantifica en la forma cuantificada &£*>). En este caso, la cuantificación se basa en un esquema de codificación de impulsos [3], que construye la forma (o dirección) a partir de una suma de impulsos enteros con signo. Los impulsos pueden añadirse uno encima del otro para cada dimensión. Esto significa que las posiciones de cuantificación de forma permitidas están representadas por los punto_As g _'randes en las rejillas rectangulares ilustradas en las figuras 3B-C. El resultado es que la forma cuantificada N(b) en general no coincide con la forma (dirección) de N(b) (y N’(b)).

La figura 3C ilustra que la precisión de la cuantificación de forma depende de los bits asignados R(b), o de manera equivalente el número total de impulsos disponibles para la cuantificación de forma. En la parte izquierda de la figura 3C la cuantificación de forma se basa en 8 impulsos, mientras que la cuantificación de forma en la parte derecha utiliza sólo 3 impulsos (el ejemplo de la figura 3B utiliza 4 impulsos).

Por lo tanto, se apreciará que, dependiendo de la precisión del cuantificador de forma, el valor de ganancia É(b) utilizado para reconstruir el vector (b) en el lado del decodificador puede ser más o menos apropiado. De acuerdo con la presente tecnología, una corrección de ganancia puede basarse en una medida de precisión de la forma cuantificada.

La medida de precisión utilizada para corregir la ganancia puede derivarse de parámetros ya disponibles en el decodificador, pero también puede depender de parámetros adicionales designados para la medida de precisión. Típicamente, los parámetros incluirían el número de bits asignados para el vector de forma y el propio vector de forma, pero también puede incluir el valor de ganancia asociado con el vector de forma y estadísticas pre almacenadas sobre las señales que son típicas para el sistema de codificación y decodificación. En la figura 4 se muestra un resumen de un sistema que incorpora una medida de precisión y una corrección o ajuste de ganancia. La figura 4 ilustra un ejemplo de decodificador 300 de dominio de transformada que utiliza una medida de precisión para determinar una corrección de envolvente. Con el fin de evitar el desorden del dibujo, sólo se ilustra el lado del decodificador. El lado del codificador puede ser implementado como en la figura 2. La nueva característica es un aparato 60 de ajuste de ganancia. El aparato 60 de ajuste de ganancia A incl 'uye un medidor 62 de precisión configurado para estimar una medida A(b) de precisión de la representación N(b) de forma, y para determinar una corrección gc(b) de ganancia basándose en la medida A(b) de precisión estimada. También incluye un ajustador 64 de envolvente configurado para ajustar la representación É(b) de ganancia basándose en la corrección de ganancia determinada.

Como se ha indicado anteriormente, la corrección de ganancia puede, en algunas realizaciones, ser formada sin gastar bits adicionales. Esto se realiza estimando la corrección de ganancia a partir de parámetros ya disponibles en el decodificador. Este proceso se puede describir como una estimación de la precisión de la forma codificada. Típicamente, esta estimación incluye derivar la medida A(b) de precisión de las características de cuantificación de forma que indican la resolución de la cuantificación de forma.

Realización 1

En una realización, la presente tecnología se utiliza en un sistema codificador/decodificador de audio. El sistema se basa en la transformada y la transformada utilizada es la Transformada Discreta de Coseno Modificada (MDCT) que utiliza ventanas sinusoidales con superposición del 50%. Sin embargo, se entiende que cualquier transformada adecuada para la codificación de transformada puede utilizarse junto con una segmentación y ventana apropiadas. Codificador de la realización 1

El audio de entrada se extrae en tramas utilizando 50% de superposición y ventanas con una ventana sinusoidal simétrica. Cada trama con ventanas se transforma a continuación en un espectro MDCT X. El espectro se divide en sub-bandas para procesamiento, donde las anchuras de la sub-banda no son uniformes. Los coeficientes espectrales de la trama m que pertenecen a la banda b se indican X(b, m) y tienen el ancho de banda BW(b). Puesto que la mayoría de los pasos del codificador y del decodificador se pueden describir dentro de una trama, omitimos el índice de trama y apenas utilizamos la notación X(b). Los anchos de banda deberían aumentar preferentemente con frecuencia creciente para cumplir con la resolución de frecuencia del sistema auditivo humano. El valor cuadrático medio (RMS) de cada banda se utiliza como factor de normalización y se denomina E(b):

^{( 1 )}

donde X(b)T indica la transposición de X(b).

El valor RMS puede ser visto como el valor de energía por coeficiente. La secuencia de factores de normalización E(b) para b = l, 2, ..., Nbandas forma la envolvente del espectro MDCT, donde Nbandas indica el número de bandas. A continuación, la secuencia se cuantifica para ser transmitida al decodificador. Para asegurar que la normalización puede invertirse en el decodificador, se obtiene la envolvente cuantificada É(b). En esta realización de ejemplo, los coeficientes de envolvente son cuantificados escalares en el dominio de registro utilizando un tamaño de paso de 3 dB y los índices de cuantificador se codifican diferencialmente utilizando la codificación de Huffman. La envolvente cuantificada se utiliza para la normalización de las bandas espectrales, es decir:

Téngase en cuenta que si la envolvente no cuantificada E(b) se utiliza para la normalización, la forma tendría RMS = 1, es decir:

Mediante el uso de la envolvente cuantificada É(b), el vector de forma tendrá un valor RMS cercano a 1. Esta característica se utilizará en el decodificador para crear una aproximación del valor de ganancia.

La unión de los vectores de forma normalizados N(b) forma la estructura fina del espectro MDCT. La envolvente cuantificada se utiliza para producir una asignación R(b) de bits para la codificación de los vectores N(b) de forma normalizados. El algoritmo de asignación de bits utiliza preferentemente un modelo auditivo para distribuir los bits a las partes perceptualmente más relevantes. Puede utilizarse cualquier esquema de cuantificación para codificar el vector de forma. Común para todos es que pueden ser diseñados bajo el supuesto de que la entrada es normalizada, lo que simplifica el diseño de cuantificador. En esta realización, la cuantificación de forma se realiza utilizando un esquema de codificación de impulsos que construye la forma de síntesis a partir de una suma de impulsos de enteros señalizados [3]. Los impulsos pueden añadirse uno encima del otro para formar impulsos de diferente altura. En esta realización, la asignación R(b) de bits indica el número de impulsos asignados a la banda b. Los índices de cuantificador a partir de la cuantificación de envolvente y la cuantificación de forma son multiplexados en un flujo de bits para ser almacenados o transmitidos a un decodificador.

Decodificador de la realización 1

El decodificador desmultiplexa los índices del flujo de bits y envía los índices relevantes a cada módulo de decodificación. En primer lugar, se obtiene la envolvente cuantificada É(b). A continuación, la asignación de bits de estructura fina se deriva de la envolvente cuantificada utilizando una asignación de bits idéntica a la utilizada en el codificador. Los vectores N(b) de forma de la estructura fina se decodifican utilizando los índices y la asignación R(b) de bits obtenida.

Ahora, antes de escalar la estructura fina decodificada con la envolvente, se determinan factores de corrección de ganancia adicionales. En primer lugar, la ganancia de correspondencia RMS se obtiene como:

El factor gRMs(b) es un factor de escala que normaliza el valor RMS a 1, es decir:

En esta realización buscamos minimizar el error cuadrático medio (MSE) de la síntesis:

con la solución

Ñ[b)TN(b)

9msb (^) ~ ⁽7⁾

N [b fN (b )

Dado que gMSE(b) depende de la forma de entrada N(b), no se conoce en el decodificador. En esta realización, el impacto se estima utilizando una medida de precisión. La relación de estas ganancias se define como un factor de corrección de ganancia gc(b):

g¿b) = 9MSE (fo) ₍8₎

Cuando la precisión de la cuantificación de la forma es buena, el factor de corrección es cercano a 1, es decir:

Ñ(b) -> N(b) ^ gc[b) 1 ₍9 ₎

Sin embargo, cuando la precisión de N(b) es baja, gMSE(b) y gRMs(b) divergirán. En esta realización, en la que la forma se codifica utilizando un esquema de codificación de impulsos, una velocidad baja hará que el vector de forma sea escaso y gRMS(b) dará una sobreestimación de la ganancia apropiada en términos de MSE. Para este caso gc(b) debe ser inferior a 1 para compensar el rebasamiento. Véanse las figuras 5A-B para una ilustración de ejemplo del caso de forma de impulso de baja velocidad. La figura 5A-B ilustra un ejemplo de escala de la síntesis con factores de ganancia gMSE (figura 5B) y gRMS (figura 5A) cuando el vector de forma es un vector de impulso escaso. La escala de gRMS da impulsos que son demasiado altos en un sentido MSE.

Por otra parte, una señal de destino pico o escasa puede estar bien representada con una forma de impulso. Aunque la dispersión de la señal de entrada puede no ser conocida en la etapa de síntesis, la escasez de la forma de síntesis puede servir como un indicador de la precisión del vector de forma sintetizado. Una forma de medir la dispersión de la forma de síntesis es la altura del pico máximo en la forma. El razonamiento detrás de esto es que una señal de entrada escasa es más probable que genere altos picos en la forma de síntesis. Véase la figura 7A-B para una ilustración de cómo la altura del pico puede indicar la precisión de dos vectores de impulso de velocidad igual. En la figura 7A hay 5 impulsos disponibles (R(b) = 5) para representar la forma discontinua. Puesto que la forma es bastante constante, la codificación generó 5 impulsos distribuidos de igual altura 1, es decir pmax = 1. En la figura 7B también hay 5 impulsos disponibles para representar la forma discontinua. Sin embargo, en este caso la forma es pico o escasa, y el pico más grande está representado por 3 impulsos uno encima del otro, es decir pmax = 3. Esto indica que la corrección gc(b) de ganancia depende de una dispersión estimada pmax de la forma cuantificada. Como se ha indicado anteriormente, la forma N(b) de entrada no es conocida por el decodificador. Puesto que gMSE(b) depende de la forma N(b) de entrada, esto significa que la corrección o compensación gc(b) de ganancia no puede en la práctica basarse en la ecuación ideal (8). En esta realización se decide en cambio la corrección de ganancia gc(b) basándose en la velocidad binaria en términos del número de impulsos R(b), la altura del impulso más grande en el vector de forma pmax(b) y la banda b de frecuencias, es decir:

9db) = f ( K ( b)>Pme*(b),b) (10)

Se ha observado que las velocidades más bajas requieren generalmente una atenuación de la ganancia para minimizar el MSE. La dependencia de la velocidad puede ser implementada como una tabla t(R(b)) de consulta que es entrenada en datos de señal de audio relevantes. En la figura 7 se puede ver una tabla de consulta de ejemplo. Dado que los vectores de forma en esta realización tienen anchuras diferentes, la velocidad puede expresarse preferentemente como número de impulsos por muestra. De esta manera se puede utilizar la misma atenuación dependiente de la velocidad para todos los anchos de banda. Una solución alternativa, que se utiliza en esta realización, es utilizar un tamaño T de paso en la tabla dependiendo de la anchura de la banda. Aquí, utilizamos 4 anchos de banda diferentes en 4 grupos diferentes y por lo tanto requieren 4 tamaños de paso. Un ejemplo de tamaños de paso se encuentra en la tabla 1. Utilizando el tamaño de paso, el valor de búsqueda se obtiene utilizando una operación de redondeo t(|_R(b)T_|), donde L J representa el redondeo al entero más cercano.

Tabla 1

Otro cuadro de consulta de ejemplo se da en la tabla 2.

Tabla 2

La dispersión estimada se puede implementar como otra tabla u(R(b), pmax(b)) de consulta basándose tanto en el número de impulsos R(b) como en la altura del impulso máximo pmax(b). En la figura 8 se muestra una tabla de consulta de ejemplo. La tabla u de consulta sirve como medida A(b) de precisión para la banda b, es decir:

J4(fo) = u(R(fo),pin0X(b)) (11)

Se observó que la aproximación de gMSE era más adecuada para el rango de frecuencias más bajas desde una perspectiva perceptual. Para las frecuencias más altas, la estructura fina se vuelve menos importante perceptualmente y la coincidencia del valor de energía o RMS se hace vital. Por esta razón, la atenuación de ganancia se puede aplicar sólo por debajo de cierto número de banda bTHR. En este caso, la corrección de ganancia gc(b) tendrá una dependencia explícita de la banda b de frecuencias. La función de corrección de ganancia resultante puede definirse en este caso como:

La descripción hasta este punto también se puede utilizar para describir las características esenciales del ejemplo de realización de la figura 4. Así, en la realización de la figura 4, la síntesis final X(b) se calcula como:

Como alternativa, la función u(R(b)), pmax(b)) se puede implementar como una función lineal de la altura máxima de impulso pmax y la velocidad R(b) de bits asignada, por ejemplo como:

u(R(b),pmJ b )) = k ■ (PmJ b ) - R(b)) 1 (14)

donde la inclinación k se determina por:

La función depende del parámetro amin de sintonía que da el factor de atenuación inicial para R(b) = l y p max (b) = 1. La función se ilustra en la figura 9, con el parámetro amin = 0,41 de ajuste. Típicamente umax e[0,7, 1,4] y umin e[0, umax]. En la ecuación (14) u es lineal en la diferencia entre pmax(b) y R(b). Otra posibilidad es tener diferentes factores de inclinación para p max (b) y R(b).

La velocidad de bits para una banda dada puede cambiar drásticamente para una banda dada entre tramas adyacentes. Esto puede conducir a variaciones rápidas de la corrección de ganancia. Tales variaciones son especialmente críticas cuando la envolvente es bastante estable, es decir, los cambios totales entre las tramas son bastante pequeños. Esto sucede a menudo para señales de música que normalmente tienen envolventes de energía más estables. Para evitar que la atenuación de ganancia introduzca inestabilidad, se puede añadir una adaptación adicional. En la figura 10 se da una visión general de tal realización, en la que se ha añadido un medidor 66 de estabilidad al aparato 60 de ajuste de ganancia en el decodificador 300.

La adaptación puede por ejemplo basarse en una medida de estabilidad de la envolvente E(b). Un ejemplo de una medida de este tipo es calcular la distancia euclidiana al cuadrado entre vectores de envolvente log2 adyacentes:

AE(m) = — L - £ (log2Í(£>,w)-log2 £(£>»*-1))* (16)

t í

Aquí, AE(m) indica la distancia euclidiana al cuadrado entre los vectores de envolvente para la trama m y la trama m - 1. La medida de estabilidad también puede ser filtrada en paso bajo para tener una adaptación más suave:

A É(m) = aAE(m) + (1 - a)AE[m -1) (17)

Un valor adecuado para el factor a de olvido puede ser 0,1. La medida de estabilidad se puede utilizar para crear una limitación de la atenuación, por ejemplo, una función sigmoide, tal como:

donde los parámetros se pueden establecer en C1 = 6, C2 = 2 y C3 = 1,9. Debe tenerse en cuenta que estos parámetros han de considerarse como ejemplos, mientras que los valores reales pueden elegirse con más libertad. Por ejemplo:

Q e ^ lO ]

Ca ^ [1,4]

C ,e [-5 ,10 ]

La figura 11 ilustra un ejemplo de una función de mapeo desde la medida de estabilidad al factor gm¡n de limitación de ajuste de ganancia. La expresión anterior para gmin se implementa preferentemente como una tabla de búsqueda o con una función de paso simple, tal como:

fl, A £ (m )< (V C j+ C 2

(19)

[0, AE(m)>C3/Ct C2

La variable gm¡n e[0,1 ] de limitación de atenuación se puede utilizar para crear una modificación

de ganancia adaptada a la estabilidad como:

9c(b) = max (g c(i?}, gfmi„) (20)

Después de la estimación de la ganancia, la síntesis final X(b) se calcula como:

En las variantes descritas de la realización 1, la unión de los vectores sintetizados X(b) forma el espectro sintetizado X, que se procesa adicionalmente utilizando la transformada MDCT inversa, se enciende con la ventana sinusoidal simétrica y se añade a la síntesis de salida utilizando la estrategia de superposición y suma.

Ejemplo 2

En otro ejemplo, la forma se cuantifica utilizando un banco de filtros QMF (filtro espejo en cuadratura) y un esquema ADPCM (modulación por código de impulso diferencial adaptativo) para la cuantificación de la forma. Un ejemplo de un esquema ADPCM de sub-banda es el ITU-T G.722 [4]. La señal de audio de entrada se procesa preferentemente en segmentos. Un ejemplo de esquema ADPCM se muestra en la figura 12, con un tamaño S de paso adaptativo. Aquí, el tamaño de paso adaptativo del cuantificador de forma sirve como una medida de precisión que ya está presente en el decodificador y no requiere señalización adicional. Sin embargo, el tamaño del paso de cuantificación debe extraerse de los parámetros utilizados por el proceso de decodificación y no de la propia forma sintetizada. Una vista general de esta realización se muestra en la figura 14. Sin embargo, antes de que esta realización se describa en detalle, se describirá un esquema ADPCM de ejemplo basándose en un banco de filtros QMF con referencia a las figuras 12 y 13.

La figura 12 ilustra un ejemplo de un sistema de codificador y decodificador ADPCM con un tamaño de paso de adaptativo. Un cuantificador ADPCM 70 incluye un sumador 72, que recibe una señal de entrada y resta una estimación de la señal de entrada anterior para formar una señal e de error. La señal de error se cuantifica en un cuantificador 74, cuya salida es enviada al multiplexor 18 de flujo de bits, y también a una calculadora de tamaño de paso 76 y un descuantificador 78. La calculadora 76 de tamaño de paso adapta el tamaño S de paso de cuantificación para obtener un error aceptable. El tamaño S de paso de cuantificación es enviado al multiplexor 18 de flujo de bits, y también controla el cuantificador 74 y el descuantificador 78. El descuantificador 78 emite una estimación é de error a un sumador 80. La otra entrada del sumador 80 recibe una estimación de la señal de entrada que ha sido retardada por un elemento 82 de retardo. Esto forma una estimación actual de la señal de entrada, que es enviada al elemento 82 de retardo. La señal retardada también es enviada a la calculadora 76 de tamaño de paso y (con un cambio de signo) al sumador 72 para formar la señal e de error.

Un descuantificador ADPCM 90 incluye un decodificador 92 de tamaño de paso, que decodifica el tamaño S de paso recibido y lo envía a un descuantificador 94. El descuantificador 94 decodifica la estimación é de error, que es enviada a un sumador 98, cuya otra entrada recibe la señal de salida del sumador retardada por un elemento 96 de retardo.

La figura 13 ilustra un ejemplo en el contexto de un sistema codificador y decodificador de audio basado en ADPCM de sub-banda. El lado del codificador es similar al lado del codificador de la realización de la figura 2. Las diferencias esenciales son que el transformador de frecuencia 30 ha sido reemplazado por un banco 100 de filtros de análisis QMF (filtro espejo en cuadratura), y que el cuantificador 38 de estructura fina ha sido reemplazado por un cuantificador ADPCM, tal como el cuantificador 70 en la figura 12. El lado del decodificador es similar al lado del decodificador de la realización de la figura 2. Las diferencias esenciales son que el transformador 50 de frecuencia inversa ha sido reemplazado por un banco 102 de filtro de síntesis QMF, y que el descuantificador 46 de estructura fina ha sido reemplazado por un descuantificador ADPCM tal como el descuantificador 90 en la figura 12.

La figura 14 ilustra una realización de la presente tecnología en el contexto de un sistema codificador y decodificador de audio basado en ADPCM de sub-banda. Con el fin de evitar el desorden del dibujo, sólo se ilustra el lado del decodificador 300. El lado del codificador puede ser implementado como en la figura 13.

Codificador del ejemplo 2

El codificador aplica el banco de filtros QMF para obtener las señales de sub-banda. Los valores de RMS de cada señal de sub-banda se calculan y las señales de sub-bandas se normalizan. La envolvente E(b), la asignación de bits de sub-banda R(b) y los vectores N(b) de forma normalizados se obtienen como en la realización 1. Cada sub banda normalizada se alimenta en el cuantificador ADPCM. En este ejemplo, el ADPCM funciona de una manera adaptativa hacia delante y determina un paso S(b) de escalado que se utilizará para la sub-banda b. El paso de escalado se elige para minimizar el MSE a través de la trama de sub-banda. En esta realización, el paso se elige intentando todos los pasos posibles y seleccionando el que da el mínimo MSE:

s{b)= nr 5 ^ ( Ar(b'- o ( JV(f,)'s))T(w(b) - ,3(í,(i,)-s)) (22>

donde Q(x, s) es la función de ADPCM de la variable x que utiliza un tamaño de paso de s. El tamaño de paso seleccionado puede utilizarse para generar la forma cuantificada:

Ñ(b) = Q(N(b),S(b)) (23)

Los índices de cuantificador a partir de la cuantificación de envolvente y la cuantificación de forma son multiplexados en un flujo de bits para ser almacenados o transmitidos a un decodificador.

Decodificador del ejemplo 2

El decodificador desmultiplexa los índices del flujo de bits y envía los índices relevantes a cada módulo de decodificación. La envolvente cuantificada E(b) y la asignación R(b) de bits se obtienen como en la realización 1. Los vectores N(b) de forma sintetizados se obtienen a partir del decodificador ADPCM o descuantificador junto con los tamaños S(b) de pasos de adaptación. Los tamaños de paso indican una precisión del vector de forma cuantificado, donde un tamaño de paso más pequeño corresponde a una mayor precisión y viceversa. Una posible implementación es hacer que la precisión A (b) sea inversamente proporcional al tamaño del paso utilizando un factor de proporcionalidad y:

donde y debe establecerse para lograr la relación deseada. Una elección posible es y = Smin donde smin es el tamaño de paso mínimo, que da la precisión 1 para S(b) = Smin.

El factor de corrección de ganancia gc puede obtenerse utilizando una función de mapeo:

gc(b) = h(R(b),b)A (b) (25)

La función h de mapeo puede implementarse como una tabla de consulta basada en la velocidad R(b) y la banda b de frecuencia. Esta tabla puede definirse agrupando los valores gMSE/gRMS de corrección de ganancia óptimos por estos parámetros y calculando la entrada de tabla promediando los valores de corrección de ganancia óptimos para cada grupo.

Después de la estimación de la corrección de ganancia, la síntesis X(b) de sub-banda se calcula como:

X(b) = gJ % m (b)£(n);V(,b) (26)

La trama de audio de salida se obtiene aplicando el banco de filtros de síntesis QMF a las sub-bandas.

En el ejemplo ilustrado en la figura 14, el medidor 62 de precisión en el aparato 60 de ajuste de ganancia recibe el tamaño S(b) de paso de cuantificación aún no decodificado directamente del flujo de bits recibido. Una alternativa, como se ha indicado anteriormente, es decodificarlo en el descuantificador 90 de ADPCM y enviarlo en forma decodificada al medidor 62 de precisión.

Se señala que el ejemplo 2 descrito anteriormente no forma parte de la invención reivindicada pero da un ejemplo útil de una implementación alternativa para entender al invención.

Otras alternativas

La medida de precisión se podría complementar con un parámetro de clase de señal derivado en el codificador. Esto puede ser, por ejemplo, un discriminador de voz/música o un estimador de nivel de ruido de fondo. En la figura 15-16 se muestra un resumen de un sistema que incorpora un clasificador de señales. El lado del codificador en la figura 15 es similar al lado del codificador en la figura 2, pero ha sido provisto de un clasificador 104 de señales. El lado 300 del decodificador en la figura 16 es similar al lado del decodificador en la figura 4, pero ha sido provisto de una entrada de clase de señal adicional en el medidor 62 de precisión.

La clase de señal podría incorporarse en la corrección de ganancia, por ejemplo, teniendo una adaptación dependiente de la clase. Si asumimos que las clases de señal son la voz o la música correspondientes a los valores C = 1 y C = 0, respectivamente, podemos limitar el ajuste de ganancia a ser efectivo sólo durante la voz, es decir:

a íí,j Í W ) M ( b ) , i><b™AC = l

0 [l, de otro modo

En otra realización alternativa el sistema puede actuar como un predictor junto con una corrección o compensación de ganancia parcialmente codificada. En esta realización, la medida de precisión se utiliza para mejorar la predicción de la corrección o compensación de ganancia de tal manera que el error de ganancia restante pueda codificarse con menos bits.

Cuando se crea la corrección de ganancia o el factor gc de compensación, es posible que se quiera realizar una compensación entre el valor RMS o la energía y minimizar el MSE. En algunos casos, hacer coincidir la energía es más importante que una forma de onda precisa. Esto es por ejemplo verdadero para las frecuencias más altas. Para acomodar esto, la corrección de ganancia final puede, en una realización adicional, ser formada utilizando una suma ponderada de los diferentes valores de ganancia:

g ’ = M m s P - 0)9 usa = p (1 _ = p (i _ p)gc (28)

9RMS 9rMS

donde gc es la corrección de ganancia obtenida de acuerdo con uno de los enfoques descritos anteriormente. El factor p de ponderación puede adaptarse por ejemplo a la frecuencia, velocidad de bits o el tipo de señal.

Los pasos, funciones, procedimientos y / o bloques descritos en el presente documento pueden implementarse en el equipo físico utilizando cualquier tecnología convencional, tal como tecnología de circuito discreto o de circuito integrado, incluyendo tanto circuitería electrónica de uso general como circuitería específica de aplicación.

Alternativamente, al menos algunos de los pasos, funciones, procedimientos y/o bloques descritos en el presente documento pueden implementarse en el equipo lógico para su ejecución por un dispositivo de procesamiento adecuado, tal como un microprocesador, procesador de señal digital (DSP) y/o cualquier lógica programable adecuada , como un dispositivo de matriz de puertas programables (FPGA).

También debe entenderse que puede ser posible reutilizar las capacidades generales de procesamiento del decodificador. Esto puede hacerse, por ejemplo, mediante la reprogramación del equipo lógico existente o mediante la adición de nuevos componentes de equipo lógico.

La figura 17 ilustra una realización de un aparato 60 de ajuste de ganancia de acuerdo con la presente tecnología. Esta realización se basa en un procesador 110, por ejemplo un microprocesador, que ejecuta un componente 120 de equipo lógico para estimar la medida de precisión, un componente 130 de equipo lógico para determinar la ganancia de la corrección y un componente 140 de equipo lógi

componentes de equipo lógico se almacenan A en la memôria 150. El procesador 110 se comunica con la memoria a través de un bus de sistema. Los parámetros W»), R(b), É(b) son recibidos por un controlador 160 de entrada/salida (I/O) que controla un bus I/O, al que están conectados el procesador 110 y la memoria 150. En esta realización, los parámetros recibidos por el controlador 160 de I/O se almacenan en la memoria 150, donde son procesados por los componentes de equipo lógico. Los componentes 120, 130 de equipo lógico pueden implementar la funcionalidad del bloque 62 en las realizaciones descritas anteriormente. El componente 140 de equipo lógico puede implementar la funcionalidad del bloque 64 en las realizaciones descritas anteriormente. La representación É(b) de ganancia ajustada obtenida a partir del componente 140 de equipo lógico es emitida desde la memoria (150) por el controlador 160 de I/O a través del bus de I/O.

La figura 18 ilustra una realización de ajuste de ganancia de acuerdo con la presente tecnología con más detalle. Un estimador 200 de atenuación está configurado para utilizar la asignación R(b) de bits recibida para determinar una atenuación de ganancia t(R(b)). El estimador 200 de atenuación puede, por ejemplo, ser implementado como una tabla de consulta o en un equipo lógico basándose en una ecuación lineal tal como la ecuación (14) anterior. La asignación R(b) de bits también es enviada a un estimador 202 de precisión de forma, que también recibe una dispersión estimada pmax(b) de la forma cuantificada, por ejemplo representada por la altura del impulso más alto en la representación W(b) de forma. El estimador 202 de precisión de forma puede, por ejemplo, ser implementado como una tabla de consulta. La atenuación estimada t(R(b)) y la precisión A(b) de forma estimada se multiplican en un multiplicador 204. En una realización, este producto t(R(b)) A(b) forma directamente la corrección gc(b) de ganancia. En otra realización, la corrección de ganancia gc(b) se forma de acuerdo con la ecuación (12) anterior. Esto requiere un conmutador 206 controlado por un comparador 208, que determina si la banda b de frecuencia es menor que un límite bTHR de frecuencia. Si este es el caso, entonces gc(b) es igual a t(R(b)) A(b)). De lo contrario gc(b) se establece en 1. La corrección gc(b) de ganancia es enviada a otro multiplicador 210, cuya otra entrada recibe la ganancia gRMA(b) de correspondencia RMS. La ganancia gRMA(b) de correspondencia RMS es determinada por una calculadora 212 de ganancia de correspondencia RMS basándose en la representación N(b) de forma recibida y ancho de banda BW(b) correspondiente, véase la ecuación (4) anterior. El producto resultante es enviado a otro multiplicador 214, que también recibe la representación N(b) de forma y la representación É(b) de ganancia, y_A

forma la síntesis .

La detección de estabilidad descrita con referencia a la figura 10 puede incorporarse en la realización 2 así como las otras realizaciones descritas anteriormente.

La figura 19 es un diagrama de flujo que ¡lustra el método de acuerdo con la presente tecnología. El paso S1 estima una medida A(b) de precisión de la representación M*5} de forma. La medida de precisión puede derivarse, por ejemplo, de características de cuantificación de forma, tales como R(b), S(b), que indican la resolución de la cuantificación de forma. El paso S2 determina una corrección de ganancia, tal como gc(b), gc(b), g'c(b), basándose en la medida de precisión estimada. El paso S3 ajusta la representación É(b) de ganancia basándose en la corrección de ganancia determinada.

La figura 20 es un diagrama de flujo que ilustra una realización del método de acuerdo con la tecnología actual, en la que la forma ha sido codificada utilizando un esquema de codificación de impulsos y la corrección de ganancia depende de una dispersión estimada pmax(b) de la forma cuantificada. Se supone que una medida de precisión ya se ha determinado en un paso S1 (figura 19). El paso S4 estima una atenuación de ganancia que depende de la velocidad de bits asignada. El paso S5 determina una corrección de ganancia basándose en la medida de precisión estimada y la atenuación de ganancia estimada. A continuación, el procedimiento procede al paso S3 (figura 19) para ajustar la representación de ganancia.

La figura 21 ilustra una realización de una red de acuerdo con la tecnología actual. Incluye un decodificador 300 provisto de un aparato de ajuste de ganancia de acuerdo con la presente tecnología. Esta realización ilustra un terminal de radio, pero también son factibles otros nodos de red. Por ejemplo, si se utiliza voz sobre IP (Protocolo de Internet) en la red, los nodos pueden comprender ordenadores.

En el nodo de red de la figura 21, una antena 302 recibe una señal de audio codificada. Una unidad 304 de radio transforma esta señal en parámetros de audio, los cuales son enviados al decodificador 300 para generar una señal de audio digital, como se describe con referencia a las diversas realizaciones anteriores. La señal de audio digital es entonces convertida y amplificada D/A en una unidad 306 y finalmente transmitida a un altavoz 308.

Aunque la descripción anterior se centra en la codificación de audio basada en transformada, los mismos principios también pueden aplicarse a la codificación de audio en el dominio tiempo con representaciones separadas de ganancia y forma, por ejemplo codificación CELP.

Los expertos en la técnica comprenderán que se pueden hacer diversas modificaciones y cambios en la presente tecnología sin apartarse del alcance de la misma, que se define por las reivindicaciones adjuntas.

Abreviaturas

ADPCM Modulación por código de impulso diferencial adaptativo

AMR Multivelocidad adaptativa

AMR-WB Ancho de banda de multivelocidad adaptativa

CELP Predicción lineal excitada por código

GSM-EFR Sistema global para comunicaciones móviles - Velocidad completa mejorada

DSP Procesador de señal digital

FPGA Matriz de puertas programable

IP Protocolo de Internet

MDCT Transformada discreta de coseno modificada

MSE Error cuadrático medio

QMF Filtro espejo en cuadratura

RMS Media cuadrática

VQ Cuantificación de vector

Referencias

[1] "ITU-T G.722.1 ANNEX C: A NEW LOW-COMPLEXITY 14 KHZ AUDIO CODING STANDARD", ICASSP 2006 [2] "ITU-T G.719: A NEW LOW-COMPLEXITY FULL-BAND (20 KHZ) AUDIO CODING STANDARD FOR HIGHQUALITY CONVERSATIONAL APPLICATIONS", WASPA 2009

[3] U. Mittal, J. Ashley, E. Cruz-Zeno, "Low Complexity Factorial Pulse Coding of MDCT Coefficients using Approximation of Combinatorial Functions", ICASSP 2007

[4] "7 kHz Audio Coding Within 64 kbit/s", [G.722], IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS, 1988

Claims

REIVINDICACIONES

1. - Un decodificador (300) de audio para decodificar una señal de audio que ha sido codificada con representaciones separadas de ganancia y de forma, comprendiendo dicho decodificador de audio:

medios (42) para decodificar una representación (E(b)) de ganancia codificada;

medios (44) para derivar una asignación de bits para una representación de forma;

A

medios (46) para decodificar una representación (N(b)) de forma codificada, en donde la forma ha sido codificada usando un esquema de codificación de vector de impulso, en donde pueden estar añadidos impulsos unos encima de otros para formar impulsos de diferente altura;

A

medios (62) para estimar una medida (A(b)) de precisión de la representación ( Wb)) de forma, para una banda (b) de frecuencia, comprendiendo la banda (b) de frecuencia una pluralidad de coeficientes, en donde la medida (A(b)) de precisión está basada en un número de impulsos (R(b)) y una altura de un impulso máximo (p max (b)), y para determinar una corrección (gc(b)) de ganancia, en donde la corrección (gc(b)) de ganancia está determinada en base a la medida (A(b)) de precisión estimada;

medios (64) para ajustar la representación (E(b)) de ganancia en base a la corrección de ganancia determinada.

2. - El decodificador de audio de la reivindicación 1, en el que la corrección (gc(b)) de ganancia también depende de la banda (b) de frecuencia.

3. - El decodificador de audio de la reivindicación 1 o 2, en el que los medios para estimar una medida de precisión comprenden además:

unos medios (200) de estimación de atenuación para estimar una atenuación (t(R(b))) de ganancia que depende de la velocidad (R(b)) de bits asignada;

unos medios (202) de estimación de precisión de forma para estimar la medida (A(b)) de precisión;

unos medios (204, 206, 208) de corrección de ganancia para determinar la corrección (gc(b)) de ganancia basándose en la medida (A(b)) de precisión estimada y la atenuación (t(R(b))) de ganancia estimada.

4. - El decodificador de audio de la reivindicación 3, en el que los medios (200) de estimación de atenuación para estimar una atenuación de ganancia están implementados como una tabla de búsqueda.

5. - El decodificador de audio de la reivindicación 3 ó 4, en el que los medios (202) de estimación de precisión de forma para estimar la medida de precisión son una tabla de búsqueda.

6. - El decodificador de audio de la reivindicación 3 ó 4, en el que los medios (202) de estimación de precisión de forma para estimar la medida de precisión están configurados para estimar la medida (A(b)) de precisión a partir de una función lineal de la altura (pmax) de altura de impulso máxima y la velocidad (R(b)) de bits asignada.

7. - El decodificador de audio de cualquiera de las reivindicaciones 1 a 6, en el que los medios (62) para estimar una medida de precisión están configurados para adaptar la corrección (gc(b)) de ganancia a una clase de señal de audio determinada.

8. - Un nodo de red que comprende el decodificador de audio de acuerdo con cualquiera de las reivindicaciones 1 a 7.

9. - Un método para decodificar una señal de audio que ha sido codificada con representaciones separadas de ganancia y de forma, comprendiendo dicho método:

recibir y decodificar una representación (E(b)) de ganancia codificada;

derivar una asignación de bits para una representación de forma;

A

recibir y decodificar una representación ( N(6}) de forma codificada, en donde la forma ha sido codificada usando un esquema de codificación de vector de impulso, en donde se pueden añadir impulsos unos encima de otros para formar impulsos de diferente altura;

A

estimar (S1) una medida (A(b)) de precisión de la representación ( N(b) ) de forma, para una banda (b) de frecuencia, comprendiendo la banda (b) de frecuencia una pluralidad de coeficientes, en donde la medida (A(b)) de precisión se basa en un número de impulsos (R(b)) y una altura de un impulso máximo (p max (b));

determinar (S2) una corrección (gc(b)) de ganancia en base a la medida (A(b)) de precisión estimada;

ajustar (S3) la representación (E(b)) de ganancia en base a la corrección de ganancia determinada.

10. - El método de la reivindicación 9, en el que la corrección (gc(b)) de ganancia también depende de la banda (b) de frecuencia.

11. - El método de cualquiera de las reivindicaciones 9 ó 10, que comprende además:

estimar (S4) una atenuación (t(R(b)) de ganancia que depende de la velocidad (R(b)) de bits asignada; determinar (S5) la corrección (gc(b)) de ganancia basándose en la medida (A(b)) de precisión estimada y la atenuación (t(R(b)) de ganancia estimada.

12. - El método de la reivindicación 11, en el que la atenuación (t(R(b)) de ganancia es estimada a partir de una tabla (200) de búsqueda.

13. - El método de la reivindicación 11 ó 12, que comprende además estimar (S5) la medida (A(b)) de precisión a partir de una tabla (202) de búsqueda.

14. - El método de la reivindicación 11 ó 12, que comprende además estimar la medida (A(b)) de precisión a partir de una función lineal de la altura (pmax) de impulso máxima y la velocidad (R(b)) de bits asignada.

15. - El método de cualquiera de las reivindicaciones 9 a 14, que comprende además adaptar la corrección (gc(b)) de ganancia a una clase de señal de audio determinada.