ES2744100T3 - Decodificador de audio con corrección de ganancia post-cuantificación - Google Patents

Decodificador de audio con corrección de ganancia post-cuantificación Download PDF

Info

Publication number
ES2744100T3
ES2744100T3 ES17173430T ES17173430T ES2744100T3 ES 2744100 T3 ES2744100 T3 ES 2744100T3 ES 17173430 T ES17173430 T ES 17173430T ES 17173430 T ES17173430 T ES 17173430T ES 2744100 T3 ES2744100 T3 ES 2744100T3
Authority
ES
Spain
Prior art keywords
gain
representation
shape
correction
precision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17173430T
Other languages
English (en)
Inventor
Erik Norvell
Volodya Grancharov
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2744100T3 publication Critical patent/ES2744100T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

Un decodificador (300) de audio para decodificar una señal de audio que ha sido codificada con representaciones separadas de ganancia y de forma, comprendiendo dicho decodificador de audio: medios (42) para decodificar una representación (E(b)) de ganancia codificada; medios (44) para derivar una asignación de bits para una representación de forma; medios (46) para decodificar una representación ( ) de forma codificada, en donde la forma ha sido codificada usando un esquema de codificación de vector de impulso, en donde pueden estar añadidos impulsos unos encima de otros para formar impulsos de diferente altura; medios (62) para estimar una medida (A(b)) de precisión de la representación ( ) de forma, para una banda (b) de frecuencia, comprendiendo la banda (b) de frecuencia una pluralidad de coeficientes, en donde la medida (A(b)) de precisión está basada en un número de impulsos (R(b)) y una altura de un impulso máximo (pmax(b)), y para determinar una corrección (gc(b)) de ganancia, en donde la corrección (gc(b)) de ganancia está determinada en base a la medida (A(b)) de precisión estimada; medios (64) para ajustar la representación (E(b)) de ganancia en base a la corrección de ganancia determinada.

Description

DESCRIPCIÓN
Decodificador de audio con corrección de ganancia post-cuantificación
Campo técnico
La presente tecnología se refiere a la corrección de ganancia en la codificación de audio basándose en esquemas de cuantificación donde la cuantificación se divide en una representación de ganancia y una representación de forma, denominada codificación de audio de forma-ganancia, y especialmente para corrección de ganancia postcuantificación.
Antecedentes
Se espera que los servicios de telecomunicaciones modernos manejen muchos tipos diferentes de señales de audio. Si bien el contenido de audio principal son las señales de voz, existe el deseo de manejar señales más generales como música y mezclas de música y voz. Aunque la capacidad en las redes de telecomunicaciones está aumentando continuamente, sigue siendo de gran interés limitar el ancho de banda requerido por canal de comunicación. En las redes móviles, los anchos de banda de transmisión más pequeños para producen un consumo de energía menor tanto en el dispositivo móvil como en la estación base. Esto se traduce en ahorro de energía y de costes para el operador móvil, mientras que el usuario final experimentará una duración prolongada de la batería y un aumento del tiempo de conversación. Además, con menos ancho de banda consumido por usuario, la red móvil puede atender a un mayor número de usuarios en paralelo.
Hoy en día, la tecnología de compresión dominante para servicios de voz móviles es CELP (predicción lineal excitada por código), que logra una buena calidad de audio para la voz en anchos de banda bajos. Es ampliamente utilizado en códecs desplegados como AMR (multivelocidad adaptativa), AMR-WB (ancho de banda de velocidad adaptativa) y GSM-EFR (sistema global para comunicaciones móviles - velocidad completa mejorada). Sin embargo, para señales de audio generales, como la música, la tecnología CELP tiene un rendimiento bajo. Estas señales pueden a menudo ser mejor representadas mediante el uso de codificación basada en la transformada de frecuencia, por ejemplo los códecs ITU-T G.722.1 [1] y G.719 [2]. Sin embargo, los códecs de dominio de transformada operan generalmente a una velocidad de bits mayor que los códecs de voz. Existe una brecha entre los dominios de voz y de audio general en términos de codificación y es deseable aumentar el rendimiento de los códecs de dominio de transformada a velocidades de bits más bajas.
Los códecs de dominio de transformada requieren una representación compacta de los coeficientes de transformada del dominio frecuencia. Estas representaciones a menudo se basan en la cuantificación vectorial (VQ), donde los coeficientes se codifican en grupos. Entre los diversos métodos para la cuantificación vectorial está la VQ de formaganancia. Este enfoque aplica la normalización a los vectores antes de codificar los coeficientes individuales. El factor de normalización y los coeficientes normalizados se denominan la ganancia y la forma del vector, que puede codificarse por separado. La estructura de forma-ganancia tiene muchos beneficios. Al dividir la ganancia y la forma, el códec se puede adaptar fácilmente a diferentes niveles de entrada de fuente mediante el diseño del cuantificador de ganancia. También es beneficioso desde una perspectiva perceptual donde la ganancia y la forma pueden tener diferente importancia en diferentes regiones de frecuencia. Por último, la división de forma-ganancia simplifica el diseño del cuantificador y lo hace menos complejo en términos de memoria y recursos computacionales en comparación con un cuantificador de vector sin restricciones. En la figura 1 se puede ver una descripción funcional de un cuantificador de forma-ganancia.
Si se aplica a un espectro de dominio frecuencia, la estructura de forma-ganancia se puede utilizar para formar una envolvente espectral y una representación de estructura fina. La secuencia de valores de ganancia forma la envolvente del espectro mientras que los vectores de forma dan el detalle espectral. Desde una perspectiva perceptual es beneficioso dividir el espectro utilizando una estructura de banda no uniforme que sigue la resolución de frecuencia del sistema auditivo humano. Esto generalmente significa que anchos de banda estrechos se utilizan para frecuencias bajas, mientras que anchos de banda más grandes se utilizan para altas frecuencias. La importancia perceptual de la estructura fina espectral varía con la frecuencia, pero también depende de las características de la propia señal. Los codificadores de transformada emplean a menudo un modelo auditivo para determinar las partes importantes de la estructura fina y asignar los recursos disponibles a las partes más importantes. La envolvente espectral se utiliza a menudo como entrada a este modelo auditivo. El codificador de forma cuantifica los vectores de forma utilizando los bits asignados. Véase la figura 2 para un ejemplo de un sistema de codificación basado en la transformada con un modelo auditivo.
Dependiendo de la precisión del cuantificador de forma, el valor de ganancia utilizado para reconstruir el vector puede ser más o menos apropiado. Especialmente cuando los bits asignados son pocos, el valor de ganancia se aleja del valor óptimo. Una forma de resolver esto es codificar un factor de corrección que explique el desajuste de ganancia después de la cuantificación de forma. Otra solución es codificar primero la forma y luego calcular el factor de ganancia óptima dada la forma cuantificada.
La solución para codificar un factor de corrección de ganancia después de la cuantificación de forma puede consumir una velocidad de bits considerable. Si la velocidad es ya baja, esto significa que se deben tomar más bits en otros lugares y tal vez puede reducir la velocidad de bits disponible para la estructura fina.
Para codificar la forma antes de codificar la ganancia es una solución mejor, pero si la velocidad de bits para el cuantificador de forma se decide a partir del valor de ganancia cuantificado, entonces la ganancia y la cuantificación de forma dependerían entre sí. Una solución iterativa podría resolver esta codependencia, pero podría resultar demasiado compleja para ejecutarse en tiempo real en un dispositivo móvil.
El documento US 2011/002266 A1 (Yang Gao) describe un post-procesamiento de dominio frecuencia basándose en enmascaramiento perceptual, donde un factor de ganancia de modificación adaptativa se aplica a cada coeficiente de frecuencia con el fin de mejorar la calidad percibida de los coeficientes espectrales.
Sumario
Un objeto es obtener un ajuste de ganancia en la decodificación de audio que se ha codificado con representaciones separadas de ganancia y forma.
Este objeto se consigue de acuerdo con las reivindicaciones adjuntas.
Un primer aspecto implica un decodificador de audio para la decodificación de una señal de audio que ha sido codificada con representaciones separadas de ganancia y de forma. El decodificador de audio comprende medios para decodificar una representación de ganancia codificada, medios para derivar una asignación de bits para una representación de forma, y medios para decodificar una representación de forma codificada, en donde la forma ha sido codificada usando un esquema de codificación de vector de impulso, en donde pueden estar añadidos impulsos unos encima de otros para formar impulsos de diferente altura. El decodificador de audio comprende además medios para estimar una medida de precisión de la representación de forma, para una banda de frecuencia, comprendiendo la banda de frecuencia una pluralidad de coeficientes, en donde la medida de precisión está basada en un número de impulsos y una altura de un impulso máximo, y para determinar una corrección de ganancia, en donde la corrección de ganancia está determinada en base a la medida de precisión estimada. También comprende medios para ajustar la representación de ganancia en base a la corrección de ganancia determinada.
Un segundo aspecto implica un nodo de red que comprende el decodificador de audio de acuerdo con el primer aspecto.
Un tercer aspecto implica un método para la decodificación de una señal de audio que ha sido codificada con representaciones separadas de ganancia y de forma. El método comprende recibir y decodificar una representación de ganancia codificada, obtener una asignación de bits para una representación de forma, y recibir y decodificar una representación de forma codificada, en donde la forma ha sido codificada usando un esquema de codificación de vector de impulso, en donde se pueden añadir impulsos unos encima de otros para formar impulsos de diferente altura. El método comprende además estimar una medida de precisión de la representación de forma, para una banda de frecuencia, comprendiendo la banda de frecuencia una pluralidad de coeficientes, en donde la medida de precisión se basa en un número de impulsos y una altura de un impulso máximo. El método comprende además determinar una corrección de ganancia en base a la medida de precisión estimada, y ajustar la representación de ganancia en base a la corrección de ganancia determinada.
El esquema propuesto para la corrección de ganancia mejora la calidad percibida de un sistema de codificación de audio de forma-ganancia. El esquema tiene una complejidad computacional baja y requiere pocos bits adicionales, si los hay.
Breve descripción de los dibujos
La presente tecnología, junto con otros objetivos y ventajas de la misma, puede entenderse mejor haciendo referencia a la siguiente descripción tomada junto con los dibujos adjuntos, en los que:
la figura 1 ilustra un esquema de cuantificación de vector de forma-ganancia de ejemplo;
la figura 2 ilustra un esquema de codificación y decodificación de dominio de transformada de ejemplo;
la figura 3A-C ilustra la cuantificación del vector de forma-ganancia en un caso simplificado;
la figura 4 ilustra un decodificador de dominio de transformada de ejemplo que utiliza una medida de precisión para determinar una corrección de envolvente;
la figura 5A-B ilustra un resultado de ejemplo de escalar la síntesis con factores de ganancia cuando el vector de forma es un vector de impulso escaso;
la figura 6A-B ilustra cómo la altura de impulso más grande puede indicar la precisión del vector de forma;
la figura 7 ilustra un ejemplo de una función de atenuación basada en la velocidad para la realización 1;
la figura 8 ilustra un ejemplo de una función de ajuste de ganancia dependiente de la altura máxima del impulso y de la velocidad para la realización 1;
la figura 9 ilustra otro ejemplo de una función de ajuste de ganancia dependiente de la altura de impulso máxima y de la velocidad para la realización 1;
la figura 10 ilustra una realización de la presente tecnología en el contexto de un sistema codificador y decodificador de audio basado en MDCT;
la figura 11 ilustra un ejemplo de una función de mapeo desde la medida de estabilidad al factor de limitación de ajuste de ganancia;
la figura 12 ilustra un ejemplo de un sistema decodificador y codificador ADPCM y con un tamaño de paso adaptativo;
la figura 13 ilustra un ejemplo en el contexto de un sistema codificador y decodificador de audio basado en ADPCM de sub-banda;
la figura 14 ilustra un ejemplo en el contexto de un sistema codificador y decodificador de audio basado en ADPCM de sub-banda;
la figura 15 ilustra un codificador de dominio de transformada de ejemplo que incluye un clasificador de señales; la figura 16 ilustra otro decodificador de dominio de transformada de ejemplo que utiliza una medida de precisión para determinar una corrección de envolvente;
la figura 17 ilustra una realización de un aparato de ajuste de ganancia de acuerdo con la presente tecnología; la figura 18 ilustra una realización de ajuste de ganancia de acuerdo con la presente tecnología con más detalle; la figura 19 es un diagrama de flujo que ilustra el método de acuerdo con la presente tecnología;
la figura 20 es un diagrama de flujo que ilustra una realización del método de acuerdo con la presente tecnología; y la figura 21 ilustra una realización de una red de acuerdo con la tecnología actual.
Descripción detallada
En la siguiente descripción se utilizarán las mismas designaciones de referencia para elementos que realicen la misma función o una función similar.
Antes de describir la presente tecnología en detalle, la codificación de forma-ganancia se ilustrará con referencia a las figuras 1-3.
La figura 1 ilustra un esquema de cuantificación de vector de forma-ganancia de ejemplo. La parte superior de la figura ilustra el lado del codificador. Un vector x de entrada se envía a una calculadora 10de normalización, que determina la norma del vector (ganancia) g, típicamente la norma euclidiana. Esta norma exacta se cuantifica en un cuantificador 12 de norma, y la inversa 1/g de la norma cuantificada g se envía a un multiplicador 14 para escalar el vector x de entrada en una forma. La forma se cuantifica en un cuantificador 16 de forma. Las representaciones de la ganancia y la forma cuantificadas se envían a un multiplexor 18 de flujo de bits (mux). Estas representaciones se ilustran con líneas discontinuas para indicar que pueden, por ejemplo, constituir índices en tablas (libros de códigos) en lugar de los valores cuantificados reales.
La parte inferior de la figura 1 ilustra el lado del decodificador. Un demultiplexor 20 de flujo de bits (demux) recibe las representaciones de ganancia y forma. La representación de forma se envía a un descuantificador 22 de forma, y la representación de ganancia se envía a un descuantificador 24 de ganancia. La ganancia obtenida g se envía a un A
multiplicador 26, donde escala la forma obtenida, lo que da el vector reconstruido
La figura 2 ilustra un esquema de codificación y decodificación de dominio de transformada de ejemplo. La parte superior de la figura ilustra el lado del codificador. Una señal de entrada es enviada a un transformador de frecuencia 30, por ejemplo basándose en la Transformada Discreta de Coseno Modificada (MDCT), para producir la transformada X de frecuencia. La transformada X de frecuencia es enviada a una calculadora 32 de envolvente, la cual determina la energía E(b) de cada banda de frecuencia b. Estas energías se cuantifican en energías É(b) en un cuantificador 34 de envolvente. Las energías cuantificadas É(b) son enviadas a un normalizador 36 de envolvente, que escala los coeficientes de la banda de frecuencias b de la transformada X con la inversa de la energía cuantificada É(b) correspondiente de la envolvente. Las formas escaladas resultantes son enviadas a un cuantificador 38 de estructura fina. Las energías cuantificadas É(b) también son enviadas a un asignador 40 de bits, que asigna bits para la cuantificación de estructura fina a cada banda b de frecuencia. Como se ha indicado anteriormente, la asignación R(b) de bits puede basarse en un modelo del sistema auditivo humano. Las representaciones de las ganancias cuantificadas É(b) y las correspondientes formas cuantificadas son enviadas al multiplexor 18 de flujo de bits.
La parte inferior de la figura 2 ilustra el lado del decodificador. El demultiplexor 20 de flujo de bits recibe las representaciones de ganancia y forma. Las representaciones de ganancia son enviadas a un descuantificador 42 de envolventes. Las energías de envolvente generadas É(b) son enviadas a un asignador 44 de bits, que determina la asignación R(b) de bits de las formas recibidas. Las representaciones de forma son enviadas a un descuantificador 46 de estructura fina, que está controlado por la asignación R(b) de bits. Las formas decodificadas son enviadas a un conformador 48 de envolvente, que las escala con las energías de envolvente correspondientes É(b) para formar una transformada de frecuencia reconstruida. Esta transformada es enviada a un transformador 50 de frecuencia inverso, por ejemplo basado en la Transformada de Coseno Discreta Modificada Inversa (IMDCT), que produce una señal de salida que representa audio sintetizado.
La figura 3A-C ilustra la cuantificación de vector de forma-ganancia descrita anteriormente en un caso simplificado en el que la banda b de frecuencias está representada por el vector bidimensional X(b) en la figura 3A. Este caso es suficientemente simple para ser ilustrado en un dibujo, pero también lo suficientemente general como para ilustrar el problema con la cuantificación de forma-ganancia (en la práctica, los vectores tienen típicamente 8 o más dimensiones). El lado derecho de la figura 3A ilustra una representación exacta de forma-ganancia del vector X(b) con una ganancia É(b) y una forma (vector de longitud unitaria) N'(b).
Sin embargo, como se ilustra en la figura 3B, la ganancia exacta E(b) se codifica en una ganancia cuantificada É(b) en el lado del codificador. Dado que la inversa de la ganancia cuantificada É(b) se utiliza para escalar el vector X(b), el vector escalado resultante N(b) apuntará en la dirección correcta, pero no será necesariamente de longitud unitaria. Durante la cuantificación de forma el vector escalado N(b) se cuantifica en la forma cuantificada &£*>). En este caso, la cuantificación se basa en un esquema de codificación de impulsos [3], que construye la forma (o dirección) a partir de una suma de impulsos enteros con signo. Los impulsos pueden añadirse uno encima del otro para cada dimensión. Esto significa que las posiciones de cuantificación de forma permitidas están representadas por los puntoAs g 'randes en las rejillas rectangulares ilustradas en las figuras 3B-C. El resultado es que la forma cuantificada N(b) en general no coincide con la forma (dirección) de N(b) (y N’(b)).
La figura 3C ilustra que la precisión de la cuantificación de forma depende de los bits asignados R(b), o de manera equivalente el número total de impulsos disponibles para la cuantificación de forma. En la parte izquierda de la figura 3C la cuantificación de forma se basa en 8 impulsos, mientras que la cuantificación de forma en la parte derecha utiliza sólo 3 impulsos (el ejemplo de la figura 3B utiliza 4 impulsos).
Por lo tanto, se apreciará que, dependiendo de la precisión del cuantificador de forma, el valor de ganancia É(b) utilizado para reconstruir el vector (b) en el lado del decodificador puede ser más o menos apropiado. De acuerdo con la presente tecnología, una corrección de ganancia puede basarse en una medida de precisión de la forma cuantificada.
La medida de precisión utilizada para corregir la ganancia puede derivarse de parámetros ya disponibles en el decodificador, pero también puede depender de parámetros adicionales designados para la medida de precisión. Típicamente, los parámetros incluirían el número de bits asignados para el vector de forma y el propio vector de forma, pero también puede incluir el valor de ganancia asociado con el vector de forma y estadísticas pre­ almacenadas sobre las señales que son típicas para el sistema de codificación y decodificación. En la figura 4 se muestra un resumen de un sistema que incorpora una medida de precisión y una corrección o ajuste de ganancia. La figura 4 ilustra un ejemplo de decodificador 300 de dominio de transformada que utiliza una medida de precisión para determinar una corrección de envolvente. Con el fin de evitar el desorden del dibujo, sólo se ilustra el lado del decodificador. El lado del codificador puede ser implementado como en la figura 2. La nueva característica es un aparato 60 de ajuste de ganancia. El aparato 60 de ajuste de ganancia A incl 'uye un medidor 62 de precisión configurado para estimar una medida A(b) de precisión de la representación N(b) de forma, y para determinar una corrección gc(b) de ganancia basándose en la medida A(b) de precisión estimada. También incluye un ajustador 64 de envolvente configurado para ajustar la representación É(b) de ganancia basándose en la corrección de ganancia determinada.
Como se ha indicado anteriormente, la corrección de ganancia puede, en algunas realizaciones, ser formada sin gastar bits adicionales. Esto se realiza estimando la corrección de ganancia a partir de parámetros ya disponibles en el decodificador. Este proceso se puede describir como una estimación de la precisión de la forma codificada. Típicamente, esta estimación incluye derivar la medida A(b) de precisión de las características de cuantificación de forma que indican la resolución de la cuantificación de forma.
Realización 1
En una realización, la presente tecnología se utiliza en un sistema codificador/decodificador de audio. El sistema se basa en la transformada y la transformada utilizada es la Transformada Discreta de Coseno Modificada (MDCT) que utiliza ventanas sinusoidales con superposición del 50%. Sin embargo, se entiende que cualquier transformada adecuada para la codificación de transformada puede utilizarse junto con una segmentación y ventana apropiadas. Codificador de la realización 1
El audio de entrada se extrae en tramas utilizando 50% de superposición y ventanas con una ventana sinusoidal simétrica. Cada trama con ventanas se transforma a continuación en un espectro MDCT X. El espectro se divide en sub-bandas para procesamiento, donde las anchuras de la sub-banda no son uniformes. Los coeficientes espectrales de la trama m que pertenecen a la banda b se indican X(b, m) y tienen el ancho de banda BW(b). Puesto que la mayoría de los pasos del codificador y del decodificador se pueden describir dentro de una trama, omitimos el índice de trama y apenas utilizamos la notación X(b). Los anchos de banda deberían aumentar preferentemente con frecuencia creciente para cumplir con la resolución de frecuencia del sistema auditivo humano. El valor cuadrático medio (RMS) de cada banda se utiliza como factor de normalización y se denomina E(b):
Figure imgf000006_0001
( 1 )
donde X(b)T indica la transposición de X(b).
El valor RMS puede ser visto como el valor de energía por coeficiente. La secuencia de factores de normalización E(b) para b = l, 2, ..., Nbandas forma la envolvente del espectro MDCT, donde Nbandas indica el número de bandas. A continuación, la secuencia se cuantifica para ser transmitida al decodificador. Para asegurar que la normalización puede invertirse en el decodificador, se obtiene la envolvente cuantificada É(b). En esta realización de ejemplo, los coeficientes de envolvente son cuantificados escalares en el dominio de registro utilizando un tamaño de paso de 3 dB y los índices de cuantificador se codifican diferencialmente utilizando la codificación de Huffman. La envolvente cuantificada se utiliza para la normalización de las bandas espectrales, es decir:
Figure imgf000006_0002
Téngase en cuenta que si la envolvente no cuantificada E(b) se utiliza para la normalización, la forma tendría RMS = 1, es decir:
Figure imgf000006_0003
Mediante el uso de la envolvente cuantificada É(b), el vector de forma tendrá un valor RMS cercano a 1. Esta característica se utilizará en el decodificador para crear una aproximación del valor de ganancia.
La unión de los vectores de forma normalizados N(b) forma la estructura fina del espectro MDCT. La envolvente cuantificada se utiliza para producir una asignación R(b) de bits para la codificación de los vectores N(b) de forma normalizados. El algoritmo de asignación de bits utiliza preferentemente un modelo auditivo para distribuir los bits a las partes perceptualmente más relevantes. Puede utilizarse cualquier esquema de cuantificación para codificar el vector de forma. Común para todos es que pueden ser diseñados bajo el supuesto de que la entrada es normalizada, lo que simplifica el diseño de cuantificador. En esta realización, la cuantificación de forma se realiza utilizando un esquema de codificación de impulsos que construye la forma de síntesis a partir de una suma de impulsos de enteros señalizados [3]. Los impulsos pueden añadirse uno encima del otro para formar impulsos de diferente altura. En esta realización, la asignación R(b) de bits indica el número de impulsos asignados a la banda b. Los índices de cuantificador a partir de la cuantificación de envolvente y la cuantificación de forma son multiplexados en un flujo de bits para ser almacenados o transmitidos a un decodificador.
Decodificador de la realización 1
El decodificador desmultiplexa los índices del flujo de bits y envía los índices relevantes a cada módulo de decodificación. En primer lugar, se obtiene la envolvente cuantificada É(b). A continuación, la asignación de bits de estructura fina se deriva de la envolvente cuantificada utilizando una asignación de bits idéntica a la utilizada en el codificador. Los vectores N(b) de forma de la estructura fina se decodifican utilizando los índices y la asignación R(b) de bits obtenida.
Ahora, antes de escalar la estructura fina decodificada con la envolvente, se determinan factores de corrección de ganancia adicionales. En primer lugar, la ganancia de correspondencia RMS se obtiene como:
Figure imgf000007_0001
El factor gRMs(b) es un factor de escala que normaliza el valor RMS a 1, es decir:
Figure imgf000007_0002
En esta realización buscamos minimizar el error cuadrático medio (MSE) de la síntesis:
Figure imgf000007_0003
con la solución
Ñ[b)TN(b)
9msb (^) ~ ( 7)
N [b fN (b )
Dado que gMSE(b) depende de la forma de entrada N(b), no se conoce en el decodificador. En esta realización, el impacto se estima utilizando una medida de precisión. La relación de estas ganancias se define como un factor de corrección de ganancia gc(b):
g¿b) = 9MSE (fo) (8)
Cuando la precisión de la cuantificación de la forma es buena, el factor de corrección es cercano a 1, es decir:
Ñ(b) -> N(b) ^ gc[b) 1 (9 )
Sin embargo, cuando la precisión de N(b) es baja, gMSE(b) y gRMs(b) divergirán. En esta realización, en la que la forma se codifica utilizando un esquema de codificación de impulsos, una velocidad baja hará que el vector de forma sea escaso y gRMS(b) dará una sobreestimación de la ganancia apropiada en términos de MSE. Para este caso gc(b) debe ser inferior a 1 para compensar el rebasamiento. Véanse las figuras 5A-B para una ilustración de ejemplo del caso de forma de impulso de baja velocidad. La figura 5A-B ilustra un ejemplo de escala de la síntesis con factores de ganancia gMSE (figura 5B) y gRMS (figura 5A) cuando el vector de forma es un vector de impulso escaso. La escala de gRMS da impulsos que son demasiado altos en un sentido MSE.
Por otra parte, una señal de destino pico o escasa puede estar bien representada con una forma de impulso. Aunque la dispersión de la señal de entrada puede no ser conocida en la etapa de síntesis, la escasez de la forma de síntesis puede servir como un indicador de la precisión del vector de forma sintetizado. Una forma de medir la dispersión de la forma de síntesis es la altura del pico máximo en la forma. El razonamiento detrás de esto es que una señal de entrada escasa es más probable que genere altos picos en la forma de síntesis. Véase la figura 7A-B para una ilustración de cómo la altura del pico puede indicar la precisión de dos vectores de impulso de velocidad igual. En la figura 7A hay 5 impulsos disponibles (R(b) = 5) para representar la forma discontinua. Puesto que la forma es bastante constante, la codificación generó 5 impulsos distribuidos de igual altura 1, es decir pmax = 1. En la figura 7B también hay 5 impulsos disponibles para representar la forma discontinua. Sin embargo, en este caso la forma es pico o escasa, y el pico más grande está representado por 3 impulsos uno encima del otro, es decir pmax = 3. Esto indica que la corrección gc(b) de ganancia depende de una dispersión estimada pmax de la forma cuantificada. Como se ha indicado anteriormente, la forma N(b) de entrada no es conocida por el decodificador. Puesto que gMSE(b) depende de la forma N(b) de entrada, esto significa que la corrección o compensación gc(b) de ganancia no puede en la práctica basarse en la ecuación ideal (8). En esta realización se decide en cambio la corrección de ganancia gc(b) basándose en la velocidad binaria en términos del número de impulsos R(b), la altura del impulso más grande en el vector de forma pmax(b) y la banda b de frecuencias, es decir:
9db) = f ( K ( b)>Pme*(b),b) (10)
Se ha observado que las velocidades más bajas requieren generalmente una atenuación de la ganancia para minimizar el MSE. La dependencia de la velocidad puede ser implementada como una tabla t(R(b)) de consulta que es entrenada en datos de señal de audio relevantes. En la figura 7 se puede ver una tabla de consulta de ejemplo. Dado que los vectores de forma en esta realización tienen anchuras diferentes, la velocidad puede expresarse preferentemente como número de impulsos por muestra. De esta manera se puede utilizar la misma atenuación dependiente de la velocidad para todos los anchos de banda. Una solución alternativa, que se utiliza en esta realización, es utilizar un tamaño T de paso en la tabla dependiendo de la anchura de la banda. Aquí, utilizamos 4 anchos de banda diferentes en 4 grupos diferentes y por lo tanto requieren 4 tamaños de paso. Un ejemplo de tamaños de paso se encuentra en la tabla 1. Utilizando el tamaño de paso, el valor de búsqueda se obtiene utilizando una operación de redondeo t(|_R(b)T_|), donde L J representa el redondeo al entero más cercano.
Tabla 1
Figure imgf000008_0002
Otro cuadro de consulta de ejemplo se da en la tabla 2.
Tabla 2
Figure imgf000008_0003
La dispersión estimada se puede implementar como otra tabla u(R(b), pmax(b)) de consulta basándose tanto en el número de impulsos R(b) como en la altura del impulso máximo pmax(b). En la figura 8 se muestra una tabla de consulta de ejemplo. La tabla u de consulta sirve como medida A(b) de precisión para la banda b, es decir:
J4(fo) = u(R(fo),pin0X(b)) (11)
Se observó que la aproximación de gMSE era más adecuada para el rango de frecuencias más bajas desde una perspectiva perceptual. Para las frecuencias más altas, la estructura fina se vuelve menos importante perceptualmente y la coincidencia del valor de energía o RMS se hace vital. Por esta razón, la atenuación de ganancia se puede aplicar sólo por debajo de cierto número de banda bTHR. En este caso, la corrección de ganancia gc(b) tendrá una dependencia explícita de la banda b de frecuencias. La función de corrección de ganancia resultante puede definirse en este caso como:
Figure imgf000008_0001
La descripción hasta este punto también se puede utilizar para describir las características esenciales del ejemplo de realización de la figura 4. Así, en la realización de la figura 4, la síntesis final X(b) se calcula como:
Figure imgf000009_0001
Como alternativa, la función u(R(b)), pmax(b)) se puede implementar como una función lineal de la altura máxima de impulso pmax y la velocidad R(b) de bits asignada, por ejemplo como:
u(R(b),pmJ b )) = k ■ (PmJ b ) - R(b)) 1 (14)
donde la inclinación k se determina por:
Figure imgf000009_0002
La función depende del parámetro amin de sintonía que da el factor de atenuación inicial para R(b) = l y p max (b) = 1. La función se ilustra en la figura 9, con el parámetro amin = 0,41 de ajuste. Típicamente umax e[0,7, 1,4] y umin e[0, umax]. En la ecuación (14) u es lineal en la diferencia entre pmax(b) y R(b). Otra posibilidad es tener diferentes factores de inclinación para p max (b) y R(b).
La velocidad de bits para una banda dada puede cambiar drásticamente para una banda dada entre tramas adyacentes. Esto puede conducir a variaciones rápidas de la corrección de ganancia. Tales variaciones son especialmente críticas cuando la envolvente es bastante estable, es decir, los cambios totales entre las tramas son bastante pequeños. Esto sucede a menudo para señales de música que normalmente tienen envolventes de energía más estables. Para evitar que la atenuación de ganancia introduzca inestabilidad, se puede añadir una adaptación adicional. En la figura 10 se da una visión general de tal realización, en la que se ha añadido un medidor 66 de estabilidad al aparato 60 de ajuste de ganancia en el decodificador 300.
La adaptación puede por ejemplo basarse en una medida de estabilidad de la envolvente E(b). Un ejemplo de una medida de este tipo es calcular la distancia euclidiana al cuadrado entre vectores de envolvente log2 adyacentes:
AE(m) = — L - £ (log2Í(£>,w)-log2 £(£>»*-1))* (16)
t í
Aquí, AE(m) indica la distancia euclidiana al cuadrado entre los vectores de envolvente para la trama m y la trama m - 1. La medida de estabilidad también puede ser filtrada en paso bajo para tener una adaptación más suave:
A É(m) = aAE(m) + (1 - a)AE[m -1) (17)
Un valor adecuado para el factor a de olvido puede ser 0,1. La medida de estabilidad se puede utilizar para crear una limitación de la atenuación, por ejemplo, una función sigmoide, tal como:
Figure imgf000009_0003
donde los parámetros se pueden establecer en C1 = 6, C2 = 2 y C3 = 1,9. Debe tenerse en cuenta que estos parámetros han de considerarse como ejemplos, mientras que los valores reales pueden elegirse con más libertad. Por ejemplo:
Q e ^ lO ]
Ca ^ [1,4]
C ,e [-5 ,10 ]
La figura 11 ilustra un ejemplo de una función de mapeo desde la medida de estabilidad al factor gm¡n de limitación de ajuste de ganancia. La expresión anterior para gmin se implementa preferentemente como una tabla de búsqueda o con una función de paso simple, tal como:
fl, A £ (m )< (V C j+ C 2
Figure imgf000010_0001
(19)
[0, AE(m)>C3/Ct C2
La variable gm¡n e[0,1 ] de limitación de atenuación se puede utilizar para crear una modificación
Figure imgf000010_0002
de ganancia adaptada a la estabilidad como:
9c(b) = max (g c(i?}, gfmi„) (20)
Después de la estimación de la ganancia, la síntesis final X(b) se calcula como:
Figure imgf000010_0003
En las variantes descritas de la realización 1, la unión de los vectores sintetizados X(b) forma el espectro sintetizado X, que se procesa adicionalmente utilizando la transformada MDCT inversa, se enciende con la ventana sinusoidal simétrica y se añade a la síntesis de salida utilizando la estrategia de superposición y suma.
Ejemplo 2
En otro ejemplo, la forma se cuantifica utilizando un banco de filtros QMF (filtro espejo en cuadratura) y un esquema ADPCM (modulación por código de impulso diferencial adaptativo) para la cuantificación de la forma. Un ejemplo de un esquema ADPCM de sub-banda es el ITU-T G.722 [4]. La señal de audio de entrada se procesa preferentemente en segmentos. Un ejemplo de esquema ADPCM se muestra en la figura 12, con un tamaño S de paso adaptativo. Aquí, el tamaño de paso adaptativo del cuantificador de forma sirve como una medida de precisión que ya está presente en el decodificador y no requiere señalización adicional. Sin embargo, el tamaño del paso de cuantificación debe extraerse de los parámetros utilizados por el proceso de decodificación y no de la propia forma sintetizada. Una vista general de esta realización se muestra en la figura 14. Sin embargo, antes de que esta realización se describa en detalle, se describirá un esquema ADPCM de ejemplo basándose en un banco de filtros QMF con referencia a las figuras 12 y 13.
La figura 12 ilustra un ejemplo de un sistema de codificador y decodificador ADPCM con un tamaño de paso de adaptativo. Un cuantificador ADPCM 70 incluye un sumador 72, que recibe una señal de entrada y resta una estimación de la señal de entrada anterior para formar una señal e de error. La señal de error se cuantifica en un cuantificador 74, cuya salida es enviada al multiplexor 18 de flujo de bits, y también a una calculadora de tamaño de paso 76 y un descuantificador 78. La calculadora 76 de tamaño de paso adapta el tamaño S de paso de cuantificación para obtener un error aceptable. El tamaño S de paso de cuantificación es enviado al multiplexor 18 de flujo de bits, y también controla el cuantificador 74 y el descuantificador 78. El descuantificador 78 emite una estimación é de error a un sumador 80. La otra entrada del sumador 80 recibe una estimación de la señal de entrada que ha sido retardada por un elemento 82 de retardo. Esto forma una estimación actual de la señal de entrada, que es enviada al elemento 82 de retardo. La señal retardada también es enviada a la calculadora 76 de tamaño de paso y (con un cambio de signo) al sumador 72 para formar la señal e de error.
Un descuantificador ADPCM 90 incluye un decodificador 92 de tamaño de paso, que decodifica el tamaño S de paso recibido y lo envía a un descuantificador 94. El descuantificador 94 decodifica la estimación é de error, que es enviada a un sumador 98, cuya otra entrada recibe la señal de salida del sumador retardada por un elemento 96 de retardo.
La figura 13 ilustra un ejemplo en el contexto de un sistema codificador y decodificador de audio basado en ADPCM de sub-banda. El lado del codificador es similar al lado del codificador de la realización de la figura 2. Las diferencias esenciales son que el transformador de frecuencia 30 ha sido reemplazado por un banco 100 de filtros de análisis QMF (filtro espejo en cuadratura), y que el cuantificador 38 de estructura fina ha sido reemplazado por un cuantificador ADPCM, tal como el cuantificador 70 en la figura 12. El lado del decodificador es similar al lado del decodificador de la realización de la figura 2. Las diferencias esenciales son que el transformador 50 de frecuencia inversa ha sido reemplazado por un banco 102 de filtro de síntesis QMF, y que el descuantificador 46 de estructura fina ha sido reemplazado por un descuantificador ADPCM tal como el descuantificador 90 en la figura 12.
La figura 14 ilustra una realización de la presente tecnología en el contexto de un sistema codificador y decodificador de audio basado en ADPCM de sub-banda. Con el fin de evitar el desorden del dibujo, sólo se ilustra el lado del decodificador 300. El lado del codificador puede ser implementado como en la figura 13.
Codificador del ejemplo 2
El codificador aplica el banco de filtros QMF para obtener las señales de sub-banda. Los valores de RMS de cada señal de sub-banda se calculan y las señales de sub-bandas se normalizan. La envolvente E(b), la asignación de bits de sub-banda R(b) y los vectores N(b) de forma normalizados se obtienen como en la realización 1. Cada sub­ banda normalizada se alimenta en el cuantificador ADPCM. En este ejemplo, el ADPCM funciona de una manera adaptativa hacia delante y determina un paso S(b) de escalado que se utilizará para la sub-banda b. El paso de escalado se elige para minimizar el MSE a través de la trama de sub-banda. En esta realización, el paso se elige intentando todos los pasos posibles y seleccionando el que da el mínimo MSE:
s{b)= nr 5 ^ ( Ar(b'- o ( JV(f,)'s))T(w(b) - ,3(í,(i,)-s)) (22>
donde Q(x, s) es la función de ADPCM de la variable x que utiliza un tamaño de paso de s. El tamaño de paso seleccionado puede utilizarse para generar la forma cuantificada:
Ñ(b) = Q(N(b),S(b)) (23)
Los índices de cuantificador a partir de la cuantificación de envolvente y la cuantificación de forma son multiplexados en un flujo de bits para ser almacenados o transmitidos a un decodificador.
Decodificador del ejemplo 2
El decodificador desmultiplexa los índices del flujo de bits y envía los índices relevantes a cada módulo de decodificación. La envolvente cuantificada E(b) y la asignación R(b) de bits se obtienen como en la realización 1. Los vectores N(b) de forma sintetizados se obtienen a partir del decodificador ADPCM o descuantificador junto con los tamaños S(b) de pasos de adaptación. Los tamaños de paso indican una precisión del vector de forma cuantificado, donde un tamaño de paso más pequeño corresponde a una mayor precisión y viceversa. Una posible implementación es hacer que la precisión A (b) sea inversamente proporcional al tamaño del paso utilizando un factor de proporcionalidad y:
Figure imgf000011_0001
donde y debe establecerse para lograr la relación deseada. Una elección posible es y = Smin donde smin es el tamaño de paso mínimo, que da la precisión 1 para S(b) = Smin.
El factor de corrección de ganancia gc puede obtenerse utilizando una función de mapeo:
gc(b) = h(R(b),b)A (b) (25)
La función h de mapeo puede implementarse como una tabla de consulta basada en la velocidad R(b) y la banda b de frecuencia. Esta tabla puede definirse agrupando los valores gMSE/gRMS de corrección de ganancia óptimos por estos parámetros y calculando la entrada de tabla promediando los valores de corrección de ganancia óptimos para cada grupo.
Después de la estimación de la corrección de ganancia, la síntesis X(b) de sub-banda se calcula como:
X(b) = gJ % m (b)£(n);V(,b) (26)
La trama de audio de salida se obtiene aplicando el banco de filtros de síntesis QMF a las sub-bandas.
En el ejemplo ilustrado en la figura 14, el medidor 62 de precisión en el aparato 60 de ajuste de ganancia recibe el tamaño S(b) de paso de cuantificación aún no decodificado directamente del flujo de bits recibido. Una alternativa, como se ha indicado anteriormente, es decodificarlo en el descuantificador 90 de ADPCM y enviarlo en forma decodificada al medidor 62 de precisión.
Se señala que el ejemplo 2 descrito anteriormente no forma parte de la invención reivindicada pero da un ejemplo útil de una implementación alternativa para entender al invención.
Otras alternativas
La medida de precisión se podría complementar con un parámetro de clase de señal derivado en el codificador. Esto puede ser, por ejemplo, un discriminador de voz/música o un estimador de nivel de ruido de fondo. En la figura 15-16 se muestra un resumen de un sistema que incorpora un clasificador de señales. El lado del codificador en la figura 15 es similar al lado del codificador en la figura 2, pero ha sido provisto de un clasificador 104 de señales. El lado 300 del decodificador en la figura 16 es similar al lado del decodificador en la figura 4, pero ha sido provisto de una entrada de clase de señal adicional en el medidor 62 de precisión.
La clase de señal podría incorporarse en la corrección de ganancia, por ejemplo, teniendo una adaptación dependiente de la clase. Si asumimos que las clases de señal son la voz o la música correspondientes a los valores C = 1 y C = 0, respectivamente, podemos limitar el ajuste de ganancia a ser efectivo sólo durante la voz, es decir:
a íí,j Í W ) M ( b ) , i><b™AC = l
0 [l, de otro modo
En otra realización alternativa el sistema puede actuar como un predictor junto con una corrección o compensación de ganancia parcialmente codificada. En esta realización, la medida de precisión se utiliza para mejorar la predicción de la corrección o compensación de ganancia de tal manera que el error de ganancia restante pueda codificarse con menos bits.
Cuando se crea la corrección de ganancia o el factor gc de compensación, es posible que se quiera realizar una compensación entre el valor RMS o la energía y minimizar el MSE. En algunos casos, hacer coincidir la energía es más importante que una forma de onda precisa. Esto es por ejemplo verdadero para las frecuencias más altas. Para acomodar esto, la corrección de ganancia final puede, en una realización adicional, ser formada utilizando una suma ponderada de los diferentes valores de ganancia:
g ’ = M m s P - 0)9 usa = p (1 _ = p (i _ p)gc (28)
9RMS 9rMS
donde gc es la corrección de ganancia obtenida de acuerdo con uno de los enfoques descritos anteriormente. El factor p de ponderación puede adaptarse por ejemplo a la frecuencia, velocidad de bits o el tipo de señal.
Los pasos, funciones, procedimientos y / o bloques descritos en el presente documento pueden implementarse en el equipo físico utilizando cualquier tecnología convencional, tal como tecnología de circuito discreto o de circuito integrado, incluyendo tanto circuitería electrónica de uso general como circuitería específica de aplicación.
Alternativamente, al menos algunos de los pasos, funciones, procedimientos y/o bloques descritos en el presente documento pueden implementarse en el equipo lógico para su ejecución por un dispositivo de procesamiento adecuado, tal como un microprocesador, procesador de señal digital (DSP) y/o cualquier lógica programable adecuada , como un dispositivo de matriz de puertas programables (FPGA).
También debe entenderse que puede ser posible reutilizar las capacidades generales de procesamiento del decodificador. Esto puede hacerse, por ejemplo, mediante la reprogramación del equipo lógico existente o mediante la adición de nuevos componentes de equipo lógico.
La figura 17 ilustra una realización de un aparato 60 de ajuste de ganancia de acuerdo con la presente tecnología. Esta realización se basa en un procesador 110, por ejemplo un microprocesador, que ejecuta un componente 120 de equipo lógico para estimar la medida de precisión, un componente 130 de equipo lógico para determinar la ganancia de la corrección y un componente 140 de equipo lógi
componentes de equipo lógico se almacenan A en la memôria 150. El procesador 110 se comunica con la memoria a través de un bus de sistema. Los parámetros W»), R(b), É(b) son recibidos por un controlador 160 de entrada/salida (I/O) que controla un bus I/O, al que están conectados el procesador 110 y la memoria 150. En esta realización, los parámetros recibidos por el controlador 160 de I/O se almacenan en la memoria 150, donde son procesados por los componentes de equipo lógico. Los componentes 120, 130 de equipo lógico pueden implementar la funcionalidad del bloque 62 en las realizaciones descritas anteriormente. El componente 140 de equipo lógico puede implementar la funcionalidad del bloque 64 en las realizaciones descritas anteriormente. La representación É(b) de ganancia ajustada obtenida a partir del componente 140 de equipo lógico es emitida desde la memoria (150) por el controlador 160 de I/O a través del bus de I/O.
La figura 18 ilustra una realización de ajuste de ganancia de acuerdo con la presente tecnología con más detalle. Un estimador 200 de atenuación está configurado para utilizar la asignación R(b) de bits recibida para determinar una atenuación de ganancia t(R(b)). El estimador 200 de atenuación puede, por ejemplo, ser implementado como una tabla de consulta o en un equipo lógico basándose en una ecuación lineal tal como la ecuación (14) anterior. La asignación R(b) de bits también es enviada a un estimador 202 de precisión de forma, que también recibe una dispersión estimada pmax(b) de la forma cuantificada, por ejemplo representada por la altura del impulso más alto en la representación W(b) de forma. El estimador 202 de precisión de forma puede, por ejemplo, ser implementado como una tabla de consulta. La atenuación estimada t(R(b)) y la precisión A(b) de forma estimada se multiplican en un multiplicador 204. En una realización, este producto t(R(b)) A(b) forma directamente la corrección gc(b) de ganancia. En otra realización, la corrección de ganancia gc(b) se forma de acuerdo con la ecuación (12) anterior. Esto requiere un conmutador 206 controlado por un comparador 208, que determina si la banda b de frecuencia es menor que un límite bTHR de frecuencia. Si este es el caso, entonces gc(b) es igual a t(R(b)) A(b)). De lo contrario gc(b) se establece en 1. La corrección gc(b) de ganancia es enviada a otro multiplicador 210, cuya otra entrada recibe la ganancia gRMA(b) de correspondencia RMS. La ganancia gRMA(b) de correspondencia RMS es determinada por una calculadora 212 de ganancia de correspondencia RMS basándose en la representación N(b) de forma recibida y ancho de banda BW(b) correspondiente, véase la ecuación (4) anterior. El producto resultante es enviado a otro multiplicador 214, que también recibe la representación N(b) de forma y la representación É(b) de ganancia, yA
forma la síntesis .
La detección de estabilidad descrita con referencia a la figura 10 puede incorporarse en la realización 2 así como las otras realizaciones descritas anteriormente.
La figura 19 es un diagrama de flujo que ¡lustra el método de acuerdo con la presente tecnología. El paso S1 estima una medida A(b) de precisión de la representación M*5} de forma. La medida de precisión puede derivarse, por ejemplo, de características de cuantificación de forma, tales como R(b), S(b), que indican la resolución de la cuantificación de forma. El paso S2 determina una corrección de ganancia, tal como gc(b), gc(b), g'c(b), basándose en la medida de precisión estimada. El paso S3 ajusta la representación É(b) de ganancia basándose en la corrección de ganancia determinada.
La figura 20 es un diagrama de flujo que ilustra una realización del método de acuerdo con la tecnología actual, en la que la forma ha sido codificada utilizando un esquema de codificación de impulsos y la corrección de ganancia depende de una dispersión estimada pmax(b) de la forma cuantificada. Se supone que una medida de precisión ya se ha determinado en un paso S1 (figura 19). El paso S4 estima una atenuación de ganancia que depende de la velocidad de bits asignada. El paso S5 determina una corrección de ganancia basándose en la medida de precisión estimada y la atenuación de ganancia estimada. A continuación, el procedimiento procede al paso S3 (figura 19) para ajustar la representación de ganancia.
La figura 21 ilustra una realización de una red de acuerdo con la tecnología actual. Incluye un decodificador 300 provisto de un aparato de ajuste de ganancia de acuerdo con la presente tecnología. Esta realización ilustra un terminal de radio, pero también son factibles otros nodos de red. Por ejemplo, si se utiliza voz sobre IP (Protocolo de Internet) en la red, los nodos pueden comprender ordenadores.
En el nodo de red de la figura 21, una antena 302 recibe una señal de audio codificada. Una unidad 304 de radio transforma esta señal en parámetros de audio, los cuales son enviados al decodificador 300 para generar una señal de audio digital, como se describe con referencia a las diversas realizaciones anteriores. La señal de audio digital es entonces convertida y amplificada D/A en una unidad 306 y finalmente transmitida a un altavoz 308.
Aunque la descripción anterior se centra en la codificación de audio basada en transformada, los mismos principios también pueden aplicarse a la codificación de audio en el dominio tiempo con representaciones separadas de ganancia y forma, por ejemplo codificación CELP.
Los expertos en la técnica comprenderán que se pueden hacer diversas modificaciones y cambios en la presente tecnología sin apartarse del alcance de la misma, que se define por las reivindicaciones adjuntas.
Abreviaturas
ADPCM Modulación por código de impulso diferencial adaptativo
AMR Multivelocidad adaptativa
AMR-WB Ancho de banda de multivelocidad adaptativa
CELP Predicción lineal excitada por código
GSM-EFR Sistema global para comunicaciones móviles - Velocidad completa mejorada
DSP Procesador de señal digital
FPGA Matriz de puertas programable
IP Protocolo de Internet
MDCT Transformada discreta de coseno modificada
MSE Error cuadrático medio
QMF Filtro espejo en cuadratura
RMS Media cuadrática
VQ Cuantificación de vector
Referencias
[1] "ITU-T G.722.1 ANNEX C: A NEW LOW-COMPLEXITY 14 KHZ AUDIO CODING STANDARD", ICASSP 2006 [2] "ITU-T G.719: A NEW LOW-COMPLEXITY FULL-BAND (20 KHZ) AUDIO CODING STANDARD FOR HIGHQUALITY CONVERSATIONAL APPLICATIONS", WASPA 2009
[3] U. Mittal, J. Ashley, E. Cruz-Zeno, "Low Complexity Factorial Pulse Coding of MDCT Coefficients using Approximation of Combinatorial Functions", ICASSP 2007
[4] "7 kHz Audio Coding Within 64 kbit/s", [G.722], IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS, 1988

Claims (15)

REIVINDICACIONES
1. - Un decodificador (300) de audio para decodificar una señal de audio que ha sido codificada con representaciones separadas de ganancia y de forma, comprendiendo dicho decodificador de audio:
medios (42) para decodificar una representación (E(b)) de ganancia codificada;
medios (44) para derivar una asignación de bits para una representación de forma;
A
medios (46) para decodificar una representación (N(b)) de forma codificada, en donde la forma ha sido codificada usando un esquema de codificación de vector de impulso, en donde pueden estar añadidos impulsos unos encima de otros para formar impulsos de diferente altura;
A
medios (62) para estimar una medida (A(b)) de precisión de la representación ( Wb)) de forma, para una banda (b) de frecuencia, comprendiendo la banda (b) de frecuencia una pluralidad de coeficientes, en donde la medida (A(b)) de precisión está basada en un número de impulsos (R(b)) y una altura de un impulso máximo (p max (b)), y para determinar una corrección (gc(b)) de ganancia, en donde la corrección (gc(b)) de ganancia está determinada en base a la medida (A(b)) de precisión estimada;
medios (64) para ajustar la representación (E(b)) de ganancia en base a la corrección de ganancia determinada.
2. - El decodificador de audio de la reivindicación 1, en el que la corrección (gc(b)) de ganancia también depende de la banda (b) de frecuencia.
3. - El decodificador de audio de la reivindicación 1 o 2, en el que los medios para estimar una medida de precisión comprenden además:
unos medios (200) de estimación de atenuación para estimar una atenuación (t(R(b))) de ganancia que depende de la velocidad (R(b)) de bits asignada;
unos medios (202) de estimación de precisión de forma para estimar la medida (A(b)) de precisión;
unos medios (204, 206, 208) de corrección de ganancia para determinar la corrección (gc(b)) de ganancia basándose en la medida (A(b)) de precisión estimada y la atenuación (t(R(b))) de ganancia estimada.
4. - El decodificador de audio de la reivindicación 3, en el que los medios (200) de estimación de atenuación para estimar una atenuación de ganancia están implementados como una tabla de búsqueda.
5. - El decodificador de audio de la reivindicación 3 ó 4, en el que los medios (202) de estimación de precisión de forma para estimar la medida de precisión son una tabla de búsqueda.
6. - El decodificador de audio de la reivindicación 3 ó 4, en el que los medios (202) de estimación de precisión de forma para estimar la medida de precisión están configurados para estimar la medida (A(b)) de precisión a partir de una función lineal de la altura (pmax) de altura de impulso máxima y la velocidad (R(b)) de bits asignada.
7. - El decodificador de audio de cualquiera de las reivindicaciones 1 a 6, en el que los medios (62) para estimar una medida de precisión están configurados para adaptar la corrección (gc(b)) de ganancia a una clase de señal de audio determinada.
8. - Un nodo de red que comprende el decodificador de audio de acuerdo con cualquiera de las reivindicaciones 1 a 7.
9. - Un método para decodificar una señal de audio que ha sido codificada con representaciones separadas de ganancia y de forma, comprendiendo dicho método:
recibir y decodificar una representación (E(b)) de ganancia codificada;
derivar una asignación de bits para una representación de forma;
A
recibir y decodificar una representación ( N(6}) de forma codificada, en donde la forma ha sido codificada usando un esquema de codificación de vector de impulso, en donde se pueden añadir impulsos unos encima de otros para formar impulsos de diferente altura;
A
estimar (S1) una medida (A(b)) de precisión de la representación ( N(b) ) de forma, para una banda (b) de frecuencia, comprendiendo la banda (b) de frecuencia una pluralidad de coeficientes, en donde la medida (A(b)) de precisión se basa en un número de impulsos (R(b)) y una altura de un impulso máximo (p max (b));
determinar (S2) una corrección (gc(b)) de ganancia en base a la medida (A(b)) de precisión estimada;
ajustar (S3) la representación (E(b)) de ganancia en base a la corrección de ganancia determinada.
10. - El método de la reivindicación 9, en el que la corrección (gc(b)) de ganancia también depende de la banda (b) de frecuencia.
11. - El método de cualquiera de las reivindicaciones 9 ó 10, que comprende además:
estimar (S4) una atenuación (t(R(b)) de ganancia que depende de la velocidad (R(b)) de bits asignada; determinar (S5) la corrección (gc(b)) de ganancia basándose en la medida (A(b)) de precisión estimada y la atenuación (t(R(b)) de ganancia estimada.
12. - El método de la reivindicación 11, en el que la atenuación (t(R(b)) de ganancia es estimada a partir de una tabla (200) de búsqueda.
13. - El método de la reivindicación 11 ó 12, que comprende además estimar (S5) la medida (A(b)) de precisión a partir de una tabla (202) de búsqueda.
14. - El método de la reivindicación 11 ó 12, que comprende además estimar la medida (A(b)) de precisión a partir de una función lineal de la altura (pmax) de impulso máxima y la velocidad (R(b)) de bits asignada.
15. - El método de cualquiera de las reivindicaciones 9 a 14, que comprende además adaptar la corrección (gc(b)) de ganancia a una clase de señal de audio determinada.
ES17173430T 2011-03-04 2011-07-04 Decodificador de audio con corrección de ganancia post-cuantificación Active ES2744100T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201161449230P 2011-03-04 2011-03-04

Publications (1)

Publication Number Publication Date
ES2744100T3 true ES2744100T3 (es) 2020-02-21

Family

ID=46798434

Family Applications (2)

Application Number Title Priority Date Filing Date
ES11860420.6T Active ES2641315T3 (es) 2011-03-04 2011-07-04 Corrección de ganancia post-cuantificación en codificación de audio
ES17173430T Active ES2744100T3 (es) 2011-03-04 2011-07-04 Decodificador de audio con corrección de ganancia post-cuantificación

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES11860420.6T Active ES2641315T3 (es) 2011-03-04 2011-07-04 Corrección de ganancia post-cuantificación en codificación de audio

Country Status (10)

Country Link
US (4) US10121481B2 (es)
EP (2) EP3244405B1 (es)
CN (2) CN103443856B (es)
BR (1) BR112013021164B1 (es)
DK (1) DK3244405T3 (es)
ES (2) ES2641315T3 (es)
PL (2) PL3244405T3 (es)
PT (1) PT2681734T (es)
TR (1) TR201910075T4 (es)
WO (1) WO2012121637A1 (es)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104392726B (zh) * 2010-03-31 2018-01-02 韩国电子通信研究院 编码设备和解码设备
WO2012141635A1 (en) 2011-04-15 2012-10-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive gain-shape rate sharing
TWI671736B (zh) 2011-10-21 2019-09-11 南韓商三星電子股份有限公司 對信號的包絡進行寫碼的設備及對其進行解碼的設備
ES2970676T3 (es) * 2012-12-13 2024-05-30 Fraunhofer Ges Forschung Dispositivo de codificación de audio vocal, dispositivo de decodificación de audio vocal, procedimiento decodificación de audio vocal, y procedimiento de decodificación de audio vocal
US9818424B2 (en) * 2013-05-06 2017-11-14 Waves Audio Ltd. Method and apparatus for suppression of unwanted audio signals
CN104301064B (zh) 2013-07-16 2018-05-04 华为技术有限公司 处理丢失帧的方法和解码器
WO2015162500A2 (ko) 2014-03-24 2015-10-29 삼성전자 주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
CN106683681B (zh) 2014-06-25 2020-09-25 华为技术有限公司 处理丢失帧的方法和装置
WO2017125544A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision
US10109284B2 (en) 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
EP3948857A1 (en) * 2019-03-29 2022-02-09 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for error recovery in predictive coding in multichannel audio frames

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5109417A (en) * 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5263119A (en) * 1989-06-29 1993-11-16 Fujitsu Limited Gain-shape vector quantization method and apparatus
JPH09508479A (ja) * 1994-02-01 1997-08-26 クゥアルコム・インコーポレーテッド バースト励起線形予測
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
EP0932141B1 (en) * 1998-01-22 2005-08-24 Deutsche Telekom AG Method for signal controlled switching between different audio coding schemes
WO1999050828A1 (en) * 1998-03-30 1999-10-07 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6223157B1 (en) * 1998-05-07 2001-04-24 Dsc Telecom, L.P. Method for direct recognition of encoded speech data
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6496798B1 (en) * 1999-09-30 2002-12-17 Motorola, Inc. Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
JP4506039B2 (ja) * 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7146313B2 (en) 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
US7599835B2 (en) * 2002-03-08 2009-10-06 Nippon Telegraph And Telephone Corporation Digital signal encoding method, decoding method, encoding device, decoding device, digital signal encoding program, and decoding program
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
KR100602975B1 (ko) * 2002-07-19 2006-07-20 닛본 덴끼 가부시끼가이샤 오디오 복호 장치와 복호 방법 및 프로그램을 기록한 컴퓨터 판독가능 기록매체
SE0202770D0 (sv) * 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US8218624B2 (en) * 2003-07-18 2012-07-10 Microsoft Corporation Fractional quantization step sizes for high bit rates
US20090210219A1 (en) * 2005-05-30 2009-08-20 Jong-Mo Sung Apparatus and method for coding and decoding residual signal
JP3981399B1 (ja) * 2006-03-10 2007-09-26 松下電器産業株式会社 固定符号帳探索装置および固定符号帳探索方法
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
US20080013751A1 (en) * 2006-07-17 2008-01-17 Per Hiselius Volume dependent audio frequency gain profile
US8560328B2 (en) * 2006-12-15 2013-10-15 Panasonic Corporation Encoding device, decoding device, and method thereof
US20100049512A1 (en) * 2006-12-15 2010-02-25 Panasonic Corporation Encoding device and encoding method
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
WO2009001874A1 (ja) 2007-06-27 2008-12-31 Nec Corporation オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム
US8085089B2 (en) * 2007-07-31 2011-12-27 Broadcom Corporation Method and system for polar modulation with discontinuous phase for RF transmitters with integrated amplitude shaping
US7853229B2 (en) * 2007-08-08 2010-12-14 Analog Devices, Inc. Methods and apparatus for calibration of automatic gain control in broadcast tuners
EP2048659B1 (en) * 2007-10-08 2011-08-17 Harman Becker Automotive Systems GmbH Gain and spectral shape adjustment in audio signal processing
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
US20110035214A1 (en) * 2008-04-09 2011-02-10 Panasonic Corporation Encoding device and encoding method
EP2345027B1 (en) 2008-10-10 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Energy-conserving multi-channel audio coding and decoding
JP4439579B1 (ja) * 2008-12-24 2010-03-24 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
WO2011044700A1 (en) * 2009-10-15 2011-04-21 Voiceage Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
ES2453098T3 (es) * 2009-10-20 2014-04-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Códec multimodo de audio
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US9208792B2 (en) * 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
EP2673771B1 (en) * 2011-02-09 2016-06-01 Telefonaktiebolaget LM Ericsson (publ) Efficient encoding/decoding of audio signals

Also Published As

Publication number Publication date
CN103443856A (zh) 2013-12-11
US10460739B2 (en) 2019-10-29
CN105225669B (zh) 2018-12-21
US11056125B2 (en) 2021-07-06
PL3244405T3 (pl) 2019-12-31
PT2681734T (pt) 2017-07-31
PL2681734T3 (pl) 2017-12-29
EP3244405A1 (en) 2017-11-15
CN105225669A (zh) 2016-01-06
EP2681734B1 (en) 2017-06-21
US20170330573A1 (en) 2017-11-16
EP2681734A1 (en) 2014-01-08
US20200005803A1 (en) 2020-01-02
US20210287688A1 (en) 2021-09-16
US20130339038A1 (en) 2013-12-19
EP3244405B1 (en) 2019-06-19
US10121481B2 (en) 2018-11-06
CN103443856B (zh) 2015-09-09
DK3244405T3 (da) 2019-07-22
TR201910075T4 (tr) 2019-08-21
EP2681734A4 (en) 2014-11-05
ES2641315T3 (es) 2017-11-08
BR112013021164A2 (pt) 2018-06-26
WO2012121637A1 (en) 2012-09-13
RU2013144554A (ru) 2015-04-10
BR112013021164B1 (pt) 2021-02-17

Similar Documents

Publication Publication Date Title
ES2744100T3 (es) Decodificador de audio con corrección de ganancia post-cuantificación
BRPI0517780A2 (pt) aparelho de decodificação escalável e aparelho de codificação escalável
US10770078B2 (en) Adaptive gain-shape rate sharing
ES2765527T3 (es) Dispositivo y método para la ejecución de la codificación de Huffman
JP2012118205A (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
US9691398B2 (en) Method and a decoder for attenuation of signal regions reconstructed with low accuracy
RU2575389C2 (ru) Коррекция коэффициента усиления после квантования при кодировании аудио