ES2888804T3 - Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC - Google Patents

Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC Download PDF

Info

Publication number
ES2888804T3
ES2888804T3 ES20166953T ES20166953T ES2888804T3 ES 2888804 T3 ES2888804 T3 ES 2888804T3 ES 20166953 T ES20166953 T ES 20166953T ES 20166953 T ES20166953 T ES 20166953T ES 2888804 T3 ES2888804 T3 ES 2888804T3
Authority
ES
Spain
Prior art keywords
filter
window
noise
spectral
inverse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES20166953T
Other languages
English (en)
Inventor
Bruno Bessette
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VoiceAge Corp
Original Assignee
VoiceAge Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VoiceAge Corp filed Critical VoiceAge Corp
Application granted granted Critical
Publication of ES2888804T3 publication Critical patent/ES2888804T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/0008Algebraic codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido de cuantificación en una señal de audio en ventana y codificada por transformación, caracterizado porque comprende: procesar (305) las bandas espectrales cuantificadas (C1f[k], C2f[k], C3f[k], ..., CMf[k]) de la señal de audio en ventana y codificada por transformación a través de los filtros inversos respectivos (Filtro inverso 1, Filtro inverso 2, Filtro inverso 3, ..., Filtro inverso M) para producir las bandas espectrales decodificadas (C1[k], C2[k], C3[k], ..., CM[k]); concatenar (306) las bandas espectrales decodificadas (C1[k], C2[k], C3[k], ..., CM[k]) para producir los coeficientes espectrales decodificados (Y[k]); y transformación inversa (307) de los coeficientes espectrales decodificados (Y[k]) para producir un bloque decodificado de muestras en el dominio del tiempo (y[n]) de la señal de audio; - en donde el procesamiento (305) de las bandas espectrales cuantificadas (C1f[k], C2f[k], C3f[k], ..., CMf[k]) comprende, para cada banda espectral cuantificada (C1f[k], C2f[k], C3f[k], ..., CMf[k]): calcular (308) las ganancias de ruido g1[m] y g2[m] que representan las formas espectrales del ruido de cuantificación, en donde las ganancias de ruido g1[m] y g2[m] corresponden a análisis respectivos en un punto medio (A) de una primera transición entre una ventana de procesamiento de transformación actual (ventana 1) y una ventana de procesamiento de transformación anterior (ventana 0) y en un punto medio (B) de una segunda transición entre la ventana de procesamiento de transformación actual (ventana 1) y una ventana de procesamiento de transformación posterior (ventana 2), y en donde los análisis respectivos comprenden cada uno (i) aplicar una Codificación Predictiva Lineal (LPC) a la señal de audio para obtener un predictor a corto plazo, (ii) derivar un filtro de ponderación del predictor a corto plazo, y (iii) mapear el filtro de ponderación en el dominio de la frecuencia para obtener las ganancias de ruido g1[m] y g2[m]; y filtrar los coeficientes espectrales cuantificados (Yf[k]) de la banda espectral cuantificada mediante el uso de la relación: **(Ver fórmula)** donde a y b son los parámetros del filtro y m identifica la banda espectral, y donde **(Ver fórmula)**

Description

DESCRIPCIÓN
Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC
Campo de la invención
La presente invención se refiere a un método y dispositivo de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo de un ruido de cuantificación en una señal de audio en ventana y codificada por transformación.
Antecedentes
La codificación de transformación especializada produce importantes ahorros en la velocidad de bits al representar señales digitales como el audio. Las transformaciones tal como la Transformada discreta de Fourier (DFT) y la Transformada discreta de coseno (DCT) proporcionan una representación compacta de la señal de audio al condensar la mayor parte de la energía de la señal en relativamente pocos coeficientes espectrales, en comparación con las muestras en el dominio del tiempo donde la energía se distribuye en todas las muestras. Esta propiedad de compactación de energía de las transformaciones puede conducir a una cuantificación eficiente, por ejemplo, a través de la asignación de bits adaptativa, y la minimización de la distorsión percibida, por ejemplo, mediante el uso de modelos de enmascaramiento de ruido. Una reducción de datos adicional puede lograrse mediante el uso de transformaciones solapadas y la cancelación de solapamiento en el dominio del tiempo (TDAC). La DCT modificada (MDCT) es un ejemplo de tales transformaciones solapadas, en las que los bloques adyacentes de muestras de la señal de audio a procesar se solapan entre sí para evitar artefactos de discontinuidad mientras se mantiene el muestreo crítico (N muestras de la señal de audio de entrada producen N coeficientes de transformación). La propiedad TDAC de la MDCT proporciona esta ventaja adicional en la compactación de energía.
Los modelos recientes de codificación de audio usan un enfoque multimodo. En este enfoque, pueden usarse varias herramientas de codificación para codificar de manera más eficiente cualquier tipo de señal de audio (voz, música, mixta, etc.). Estas herramientas comprenden transformaciones tal como la MDCT y predictores tales como los predictores de tono y filtros de Codificación Predictiva Lineal (LPC) usados en la codificación de voz. Cuando se opera un códec multimodo, las transiciones entre los diferentes modos de codificación se procesan cuidadosamente para evitar artefactos audibles debido a la transición. En particular, la conformación del ruido de cuantificación en los diferentes modos de codificación se realiza típicamente mediante el uso de diferentes procedimientos. En las tramas que usan codificación de transformación, el ruido de cuantificación se forma en el dominio de transformación (es decir, al cuantificar los coeficientes de transformación), al aplicar varias etapas de cuantificación que se controlan por factores de escala derivados, por ejemplo, de la energía de la señal de audio en diferentes bandas espectrales. Por otro lado, en las tramas que usan un modelo predictivo en el dominio del tiempo (que típicamente involucra predictores a largo plazo y predictores a corto plazo), el ruido de cuantificación se forma mediante el uso de un llamado filtro de ponderación cuya función de transferencia en el dominio de transformación z a menudo se denota W(z). La conformación de ruido se aplica entonces al filtrar primero las muestras en el dominio del tiempo de la señal de audio de entrada a través del filtro de ponderación W(z) para obtener una señal ponderada, y luego codificar la señal ponderada en este llamado dominio ponderado. La forma espectral, o respuesta de frecuencia, del filtro de ponderación W(z) se controla de manera que el ruido de codificación (o cuantificación) quede enmascarado por la señal de audio de entrada. Típicamente, el filtro de ponderación W(z) se deriva del filtro LPC, que modela la envolvente espectral de la señal de audio de entrada.
Un ejemplo de un códec de audio multimodo es el Códec unificado de voz y audio (USAC) del Grupo de expertos en imágenes en movimiento (MPEG). Este códec integra herramientas que incluyen la codificación de transformación y la codificación predictiva lineal, y puede cambiar entre diferentes modos de codificación en dependencia de las características de la señal de audio de entrada. Hay tres (3) modos de codificación básicos en el USAC:
1) Un modo de codificación basado en la codificación de audio avanzada (AAC), que codifica la señal de audio de entrada mediante el uso de la MDCT y la cuantificación derivada perceptivamente de los coeficientes de la MDCT;
2) Un modo de codificación basado en la predicción lineal excitada de código algebraico (ACELP), que codifica la señal de audio de entrada como una señal de excitación (una señal en el dominio del tiempo) procesada a través de un filtro de síntesis; y
3) Un modo de codificación basado en excitación codificada por transformación (TCX) que es una especie de híbrido entre los dos modos anteriores, en donde la excitación del filtro de síntesis del segundo modo se codifica en el dominio de la frecuencia; en realidad, esta es una señal objetivo o la señal ponderada que se codifica en el dominio de transformación.
En el USAC, el modo de codificación basado en TCX y el modo de codificación basado en AAC usan una transformación similar, por ejemplo, la MDCT. Sin embargo, en su forma estándar, la AAC y la TCX no aplican el mismo mecanismo para controlar la forma espectral del ruido de cuantificación. La AAC controla explícitamente el ruido de cuantificación en el dominio de la frecuencia en las etapas de cuantificación de los coeficientes de transformación. La TCX, sin embargo, controla la forma espectral del ruido de cuantificación mediante el uso del filtrado en el dominio del tiempo y, más específicamente, mediante el uso de un filtro de ponderación W(z) como se describió anteriormente. Para facilitar la conformación del ruido de cuantificación en un códec de audio multimodo, existe la necesidad de un dispositivo y un método para la conformación simultánea del ruido en el dominio del tiempo y el dominio de la frecuencia para las transformaciones TDAC.
Resumen de la invención
De acuerdo con un primer aspecto, la presente invención se refiere a un método de conformación de ruido en el dominio de la frecuencia de acuerdo con la reivindicación 1.
De acuerdo con un segundo aspecto, la presente invención se refiere a un dispositivo de conformación de ruido en el dominio de la frecuencia de acuerdo con la reivindicación 2.
En la presente descripción y las reivindicaciones adjuntas, el término "ventana de tiempo" designa un bloque de muestras en el dominio del tiempo, y el término "señal en ventana" designa una ventana del dominio del tiempo después de la aplicación de una ventana no rectangular.
Los anteriores y otros objetivos, ventajas y características de la presente invención resultarán más evidentes tras la lectura de la siguiente descripción no restrictiva de una realización ilustrativa de la misma, que se muestra a manera de ejemplo solo con referencia a las figuras acompañantes.
Breve descripción de las figuras
En las figuras adjuntas:
La Figura 1 es un diagrama de bloques esquemático que ilustra el principio general de la Conformación de ruido temporal (TNS);
La Figura 2 es un diagrama de bloques esquemático de un dispositivo de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido de cuantificación;
La Figura 3 es un diagrama de flujo que describe las operaciones de un método de conformación de ruido en el dominio de la frecuencia para interpolar la forma espectral y la envolvente en el dominio del tiempo del ruido de cuantificación;
La Figura 4 es un diagrama esquemático de las posiciones relativas de la ventana para transformaciones y ganancias de ruido, que considera el cálculo de las ganancias de ruido para la ventana 1;
La Figura 5 es un gráfico que ilustra el efecto de la interpolación de la forma del ruido, tanto en la forma espectral como en la envolvente en el dominio del tiempo del ruido de cuantificación;
La Figura 6 es un gráfico que ilustra una mésima envolvente en el dominio del tiempo, que puede verse como la forma de ruido en una mésima banda espectral que evoluciona en el tiempo desde el punto A al punto B;
La Figura 7 es un diagrama de bloques esquemático de un codificador capaz de conmutar entre un modo de codificación en el dominio de la frecuencia mediante el uso de, por ejemplo, MDCT y un modo de codificación en el dominio del tiempo mediante el uso de, por ejemplo, ACELP, el codificador que aplica la Conformación del ruido en el dominio de la frecuencia (FNDS) para codificar un bloque de muestras de una señal de audio de entrada; y
La Figura 8 es un diagrama de bloques esquemático de un decodificador que produce un bloque de señal de síntesis mediante el uso de FDNS, en donde el decodificador puede cambiar entre un modo de codificación en el dominio de la frecuencia mediante el uso de, por ejemplo, MDCT y un modo de codificación en el dominio del tiempo mediante el uso de, por ejemplo, ACELP.
Descripción detallada
Primero se discutirá brevemente el principio básico de la Conformación de ruido temporal (TNS), mencionada en la siguiente descripción.
La TNS es una técnica conocida por los expertos en la técnica de la codificación de audio para conformar el ruido de codificación en el dominio del tiempo. Con referencia a la Figura 1, un sistema TNS 100 comprende:
• Un procesador de transformación 101 para someter un bloque de muestras de una señal de audio de entrada x[n] a una transformación, por ejemplo, la Transformada discreta del coseno (DCT) o la DCT modificada (MDCT), y producir los coeficientes de transformación X[k];
Un único filtro 102 aplicado a todas las bandas espectrales, más específicamente a todos los coeficientes de transformación X[k] del procesador de transformación 101 para producir los coeficientes de transformación filtrados Xf[k];
• Un procesador 103 para cuantificar, codificar, transmitir a un receptor o almacenar en un dispositivo de almacenamiento, decodificar y cuantificar inversamente los coeficientes de transformación filtrados Xf[k] para producir los coeficientes de transformación cuantificados Yf[k];
Un único filtro inverso 104 para procesar los coeficientes de transformación cuantificados Yf[k] para producir los coeficientes de transformación decodificados Y[k]; y finalmente,
• Un procesador de transformación inversa 105 para aplicar una transformación inversa a los coeficientes de transformación decodificados Y[k] para producir un bloque decodificado de muestras de salida en el dominio del tiempo y[n].
Dado que, en el ejemplo de la Figura 1, el procesador de transformación 101 usa la DCT o MDCT, la transformación inversa aplicada en el procesador de transformación inversa 105 es la DCT inversa o MDCT inversa. El filtro único 102 de la Figura 1 se deriva de un filtro de predicción óptimo para los coeficientes de transformación. Esto da como resultado, en TNS, la modulación del ruido de cuantificación con una envolvente en el dominio del tiempo que sigue a la envolvente en el dominio del tiempo de la señal de audio para la trama actual.
Con referencia a las Figuras 2 y 3, la siguiente descripción describe simultáneamente un dispositivo de conformación de ruido en el dominio de la frecuencia 200 y el método 300 para interpolar la forma espectral y la envolvente en el dominio del tiempo del ruido de cuantificación. Más específicamente, en el dispositivo 200 y el método 300, la forma espectral y la amplitud en el dominio del tiempo del ruido de cuantificación en la transición entre dos bloques codificados por transformación superpuestos se interpolan simultáneamente. Los bloques adyacentes codificados por transformación pueden ser de naturaleza similar, tal como dos bloques consecutivos de codificación de audio avanzada (AAC) producidos por un codificador AAC o dos bloques consecutivos de excitación codificada por transformación (TCX) producidos por un codificador TCX, pero también pueden ser de diferente naturaleza tal como un bloque AAC seguido de un bloque TCX, o viceversa, en donde dos codificadores distintos se usan consecutivamente. Tanto la forma espectral como la envolvente en el dominio del tiempo del ruido de cuantificación evolucionan suavemente (o se interpolan continuamente) en la unión entre dos de estos bloques codificados por transformación.
Operación 301 (Figura 3) - Transformación
La señal de audio de entrada x[n] de las Figuras 2 y 3 es un bloque de N muestras en el dominio del tiempo de la señal de audio de entrada que cubre la longitud de un bloque de transformación. Por ejemplo, la señal de entrada x[n] abarca la longitud de la ventana en el dominio del tiempo 1 de la Figura 4.
En la operación 301, la señal de entrada x[n] se transforma a través de un procesador de transformación 201 (Figura 2). Por ejemplo, el procesador de transformación 201 puede implementar una MDCT que incluye una ventana en el dominio del tiempo (por ejemplo, la ventana 1 de la Figura 4) que multiplica la señal de entrada x[n] antes de calcular los coeficientes de transformación X[k]. Como se ilustra en la Figura 2, el procesador de transformación 201 genera los coeficientes de transformación X[k]. En el ejemplo no limitativo de una TCMD, los coeficientes de transformación X[k] comprenden N coeficientes espectrales, que es el mismo que el número de muestras en el dominio del tiempo que forman la señal de audio de entrada x[n].
Operación 302 (Figura 3) - División de banda
En la operación 302, un divisor de banda 202 (Figura 2) divide los coeficientes de transformación X[k] en M bandas espectrales. Más específicamente, los coeficientes de transformación X[k] se dividen en la bandas espectrales Bi[k], B2[k], B3[k], ..., BM[k]. La concatenación de las bandas espectrales Bi[k], B2[k], B3[k], ..., BM[k] da el conjunto completo de coeficientes de transformación, específicamente B[k]. El número de bandas espectrales y el número de coeficientes de transformación por banda espectral pueden variar en dependencia de la resolución de frecuencia deseada.
Operación 303 (Figura 3) - Filtrado 1, 2, 3, ..., M
Después de la división de banda 302, en la operación 303, cada banda espectral Bi[k], B2[k], B3[k], ..., BM[k] se filtra a través de un filtro específico de banda (Filtros 1, 2, 3, ..., M en la Figura 2). Los Filtros 1, 2, 3, ..., M pueden ser diferentes para cada banda espectral, o puede usarse el mismo filtro para todas las bandas espectrales. En una realización, los Filtros 1,2, 3, ..., M de la Figura 2 son diferentes para cada bloque de muestras de la señal de audio de entrada x[n]. La operación 303 produce las bandas filtradas Bi[k], B2f[k], B3[k], ..., BM[k] de las Figuras 2 y 3.
Operación 304 (Figura 3) - Cuantificación, codificación, transmisión o almacenamiento, decodificación, cuantificación inversa
En la operación 304, las bandas filtradas Bi[k], B2[k], B3f[k], ..., BMf[k] de los Filtros 1,2, 3, ..., M pueden cuantificarse, codificarse, transmitirse a un receptor (no mostrado) y/o almacenarse en cualquier dispositivo de almacenamiento (no mostrado). La cuantificación, codificación, transmisión a un receptor y/o almacenamiento en un dispositivo de almacenamiento se realizan y/o controlan mediante un procesador Q de la Figura 2. El procesador Q puede conectarse además a y controlar un transceptor (no mostrado) para transmitir las bandas cuantificadas, codificadas y filtradas Bif[k], B2f[k], B3f[k], ..., BMf[k] al receptor. De la misma manera, el procesador Q puede conectarse a y controlar el dispositivo de almacenamiento para almacenar las bandas cuantificadas, codificadas y filtradas Bif[k], B2f[k], B3f[k], ..., BMf[k].
En la operación 304, las bandas cuantificadas, codificadas y filtradas Bif[k], B2f[k], B3[k], ..., BMf[k] también pueden recibirse por el transceptor o recuperarse desde el dispositivo de almacenamiento, decodificarse y cuantificarse inversamente por el procesador Q. Estas operaciones de recepción (a través del transceptor) o recuperación (desde el dispositivo de almacenamiento), decodificación y cuantificación inversa producen las bandas espectrales cuantificadas Cif[k], C2f[k], C3f[k], ..., CMf[k] en la salida del procesador Q.
Cualquier tipo de cuantificación, codificación, transmisión (y/o almacenamiento), recepción, decodificación y cuantificación inversa pueden usarse en la operación 304 sin pérdida de generalidad.
Operación 305 (Figura 3) - Filtrado inverso 1, 2, 3, ..., M
En la operación 305, las bandas espectrales cuantificadas Ci[k], C2f[k], C3f[k], ..., CMf[k] se procesan a través de filtros inversos, más específicamente el Filtro inverso 1, el Filtro inverso 2, el Filtro inverso 3, ..., el Filtro inverso M de la Figura 2, para producir las bandas espectrales decodificadas Ci[k], C2[k], C3[k], ..., CM[k]. El Filtro inverso 1, el Filtro inverso 2, el Filtro inverso 3, ..., el Filtro inverso M tienen funciones de transferencia inversas de las funciones de transferencia del Filtro 1, el Filtro 2, el Filtro 3, ..., el Filtro M, respectivamente.
Operación 306 (Figura 3) - Concatenación de banda espectral
En la operación 306, las bandas espectrales decodificadas Ci[k], C2[k], C3[k], ..., CM[k] se concatenan después en un concatenador de banda 203 de la Figura 2, para producir los coeficientes espectrales decodificados Y[k] (espectro decodificado).
Operación 307 (Figura 3) - Transformación inversa
Finalmente, en la operación 307, un procesador de transformación inversa 204 (Figura 2) aplica una transformación inversa a los coeficientes espectrales decodificados Y[k] para producir un bloque decodificado de las muestras de salida en el dominio del tiempo y[n]. En el caso del ejemplo no limitativo anterior que usa la MDCT, el procesador de transformación inversa 204 aplica la MDCT inversa (IMDCT) a los coeficientes espectrales decodificados Y[k].
Operación 308 (Figura 3) - Cálculo de las ganancias de ruido gi[m] y g2
[m]
En la Figura 2, el Filtro 1, el Filtro 2, el Filtro 3, ..., el Filtro M y el Filtro inverso 1, el Filtro inverso 2, el Filtro inverso 3, ..., los parámetros de uso del Filtro inverso M (ganancias de ruido) gi[m] y g2[m] como entrada. Estas ganancias de ruido representan las formas espectrales del ruido de cuantificación y se describirán adicionalmente en la presente descripción más abajo. Además, los Filtrados 1, 2, 3, ..., M de la Figura 3 pueden ser secuenciales; el Filtro 1 puede aplicarse antes que el Filtro 2, luego el Filtro 3, y así sucesivamente hasta el Filtro M (Figura 2). Los Filtrados inversos 1, 2, 3, ..., M también pueden ser secuenciales; el Filtro inverso 1 puede aplicarse antes que el Filtro inverso 2, luego el Filtro inverso 3, y así sucesivamente hasta el Filtro inverso M (Figura 2). Como tal, cada filtro y filtro inverso pueden usar como estado inicial el estado final del filtro o filtro inverso anterior. Esta operación secuencial puede garantizar la continuidad en el proceso de filtrado de una banda espectral a la siguiente. En una realización, esta restricción de continuidad en los estados de filtro de una banda espectral a la siguiente puede no aplicarse.
La Figura 4 ilustra cómo puede usarse la conformación del ruido en el dominio de la frecuencia para interpolar la forma espectral y la envolvente en el dominio del tiempo del ruido de cuantificación al procesar una señal de audio segmentada por ventanas superpuestas (ventana 0, ventana 1, ventana 2 y ventana 3) en bloques de transformación adyacentes superpuestos (bloques de muestras de la señal de audio de entrada). Cada ventana de la Figura 4, es decir, la ventana 0, la ventana 1, la ventana 2 y la ventana 3, muestra el intervalo de tiempo de un bloque de transformación y la forma de la ventana aplicada por el procesador de transformación 201 de la Figura 2 a ese bloque de muestras de la señal de audio de entrada. Como se describió anteriormente, el procesador de transformación 201 de la Figura 2 implementa tanto la visualización en ventanas de la señal de audio de entrada x[n] como la aplicación de la transformación para producir los coeficientes de transformación X[k]. La forma de las ventanas (ventana 0, ventana 1, ventana 2 y ventana 3) mostradas en la Figura 4 puede cambiarse sin pérdida de generalidad.
En la Figura 4, se considera el procesamiento de un bloque de muestras de la señal de audio de entrada x[n] desde el principio hasta el final de la ventana 1. El bloque de muestras de la señal de audio de entrada x[n] se suministra al procesador de transformación 201 de la Figura 2. En la operación de cálculo 308 (Figura 3), la calculadora 205 (Figura 2) calcula dos conjuntos de ganancias de ruido gi[m] y g2[m] usados para las operaciones de filtrado (Filtros 1 al M y Filtros inversos 1 al M). Estos dos conjuntos de ganancias de ruido en realidad representan los niveles deseados de ruido en las M bandas espectrales en una posición dada en el tiempo. Por lo tanto, las ganancias de ruido gi[m] y g2[m] cada una representa la forma espectral del ruido de cuantificación en tal posición en el eje del tiempo. En la Figura 4, las ganancias de ruido gi[m] corresponden a algún análisis centrado en el punto A en el eje de tiempo, y las ganancias de ruido g2[m] corresponden a otro análisis más arriba en el eje del tiempo, en la posición B. Para un funcionamiento óptimo, los análisis de estas ganancias de ruido se centran en el punto medio de la superposición entre las ventanas adyacentes y los bloques de muestras correspondientes. En consecuencia, con referencia a la Figura 4, el análisis para obtener las ganancias de ruido gi[m] para la ventana 1 se centra en el punto medio de la superposición (o transición) entre la ventana 0 y la ventana 1 (vea el punto A en el eje de tiempo). Además, el análisis para obtener las ganancias de ruido g2[m] para la ventana 1 se centra en el punto medio de la superposición (o transición) entre la ventana 1 y la ventana 2 (vea el punto B en el eje de tiempo).
La calculadora 205 (Figura 2) puede usar una pluralidad de diferentes procedimientos de análisis para obtener los conjuntos de ganancias de ruido gi[m] y g2[m], siempre que tal procedimiento de análisis conduzca a un conjunto de ganancias de ruido adecuadas en el dominio de la frecuencia para cada una de las M bandas espectrales Bi[k], B2[k], B3[k], ..., BM[k] de las Figuras 2 y 3. Por ejemplo, puede aplicarse una Codificación Predictiva Lineal (LPC) a la señal de audio de entrada x[n] para obtener un predictor a corto plazo del cual se deriva un filtro de ponderación W(z). El filtro de ponderación W(z) luego se mapea en el dominio de la frecuencia para obtener las ganancias de ruido gi[m] y g2[m]. Este sería un procedimiento de análisis típico que se puede usar cuando el bloque de muestras de la señal de entrada x[n] en la ventana 1 de la Figura 4 está codificado en el modo TCX. Otro enfoque para obtener las ganancias de ruido gi[m] y g2[m] de las Figuras 2 y 3 podría ser como en AAC, donde el nivel de ruido en cada banda de frecuencia se controla por factores de escala (derivados de un modelo psicoacústico) en el dominio MDCT.
Al haber procesado a través del procesador de transformación 201 de la Figura 2, el bloque de muestras de la señal de entrada x[n] que abarca la longitud de la ventana 1 de la Figura 4, y al haber obtenido los conjuntos de ganancias de ruido gi[m] y g2[m] en las posiciones A y B en el eje de tiempo de la Figura 4 mediante el uso de la calculadora 205, se realizan las operaciones de filtrado para cada banda espectral Bi[k], B2[k], B3[k], ..., BM[k] de la Figura 2. El objetivo de las operaciones de filtrado (y filtrado inverso) es lograr una forma espectral deseada del ruido de cuantificación en las posiciones A y B en el eje del tiempo, y también asegurar una transición o interpolación suave de esta forma espectral o la envolvente de esta forma espectral del punto A al punto B, en una base de muestra por muestra. Esto se muestra en la Figura 5, en la cual una ilustración de las ganancias de ruido gi[m] se muestra en el punto A y una ilustración de las ganancias de ruido g2[m] se muestra en el punto B. Si cada una de las bandas espectrales Bi[k], B2[k], B3[k], ..., BM[k] simplemente se multiplicó por una función de las ganancias de ruido gi[m] y g2[m], por ejemplo, al tomar una suma ponderada de gi[m] y g2[m] y multiplicar por este resultado los coeficientes en la banda espectral Bm[k], m que toma uno de los valores 1, 2, 3, ..., M, entonces las curvas de ganancia interpoladas mostradas en la Figura 5 serían constantes (horizontales) desde el punto A hasta el punto B. Para obtener curvas de ganancia de ruido que varían suavemente de la ganancia gi[m] a la ganancia g2[m] para cada banda espectral como se muestra en la Figura 5, el filtrado puede aplicarse a cada banda espectral Bm[k]. Por la propiedad de dualidad de muchas transformaciones lineales, en particular la DCT y la MDCT, una operación de filtrado (o convolución) en un dominio da como resultado una multiplicación en el otro dominio. En consecuencia, filtrar los coeficientes de transformación en una banda espectral Bm[k] da como resultado la interpolación y la aplicación de una envolvente en el dominio del tiempo (multiplicación) al ruido de cuantificación en esa banda espectral. Esta es la base de TNS, cuyo principio se presenta brevemente en la descripción anterior de la Figura 1.
Sin embargo, existen diferencias fundamentales entre TNS y la interpolación propuesta en la presente descripción. Como una primera diferencia entre TNS y la técnica descrita en la presente descripción, el objetivo y el procesamiento son diferentes. En la técnica descrita en la presente descripción, el objetivo es imponer, durante la duración de una ventana dada (por ejemplo, la ventana 1 de la Figura 4), una envolvente en el dominio del tiempo para el ruido de cuantificación en una banda dada Bm[k] que varía suavemente de la ganancia de ruido gi[m] calculada en el punto A a la ganancia de ruido g2[m] calculada en el punto B. La Figura 6 muestra un ejemplo de la envolvente interpolada en el dominio del tiempo de la ganancia de ruido, para la banda espectral Bm[k]. Hay varias posibilidades para tal curva interpolada, y el filtro en el dominio de la frecuencia correspondiente para esa banda espectral Bm[k]. Por ejemplo, puede usarse una estructura de filtro recursivo de primer orden para cada banda espectral. Son posibles muchas otras estructuras de filtro, sin pérdida de generalidad.
Dado que el objetivo es conformar, a través del filtrado, el ruido de cuantificación en cada banda espectral Bm[k], la primera preocupación se dirige a los Filtros inversos 1 al M de la Figura 2, que es la operación de filtrado inverso que formará el ruido de cuantificación introducido por el procesador Q (Figura 2).
Si consideramos entonces que los coeficientes de transformación cuantificados Yf[k] de la banda espectral Cm[k] se filtran de la siguiente manera
Cm[k\ = aCmf[k]+bCm[ k - \ ] (1)
mediante el uso de los parámetros de filtro a y b. La ecuación (1) representa un filtro recursivo de primer orden, aplicado a los coeficientes de transformación de la banda espectral Cmf[k]. Como se indicó anteriormente, está dentro del alcance de la presente invención usar otras estructuras de filtro.
Para comprender el efecto, en el dominio del tiempo, del filtro de la Ecuación (1) aplicado en el dominio de la frecuencia, se hace uso de una propiedad de dualidad de las transformadas de Fourier que se aplica en particular a la MDCT.
Esta propiedad de dualidad establece que una convolución (o filtrado) de una señal en un dominio es equivalente a una multiplicación (o en realidad, una modulación) de la señal en el otro dominio. Por ejemplo, si el siguiente filtro se aplica a una señal en el dominio del tiempo x[n]:
y[n] - ax[n] by[n - 1] ( 2)
donde x[n] es la entrada del filtro y y[n] es la salida del filtro, entonces esto es equivalente a multiplicar la transformación de la entrada x[n], que puede notarse X(e6), por:
Figure imgf000007_0001
En la Ecuación (3), 6 es la frecuencia normalizada (en radianes por muestra) y H(e6) es la función de transferencia del filtro recursivo de la Ecuación (2). Lo que se usa es el valor de H(ej6) al principio (6 = 0) y al final (6 = n) de la escala del dominio de la frecuencia. Es fácil demostrar que, para la Ecuación (3),
Figure imgf000007_0002
las Ecuaciones (4) y (5) representan los valores iniciales y finales de la curva descrita por la Ecuación (3). Entre esos dos puntos, la curva evolucionará suavemente entre los valores iniciales y finales. Para la Transformada discreta de Fourier (DFT), que es una transformación de valor complejo, esta curva tendrá valores complejos. Pero para otras transformaciones de valor real tales como la DCT y la MDCT, esta curva exhibirá solo valores reales.
Ahora, debido a la propiedad de dualidad de la transformada de Fourier, si el filtrado de la Ecuación (2) se aplica en el dominio de la frecuencia como en la Ecuación (1), entonces esto tendrá el efecto de multiplicarla señal en el dominio del tiempo por una envolvente suave con valores iniciales y finales como en las Ecuaciones (4) y (5). Esta envolvente en el dominio del tiempo tendrá una forma que podría parecerse a la curva de la Figura 6. Además, si el filtrado en el dominio de la frecuencia como en la Ecuación (1) se aplica solo a una banda espectral, entonces la envolvente en el dominio del tiempo producida solo se relaciona con esa banda espectral. Los otros filtros entre el Filtro inverso 1, el Filtro inverso 2, el Filtro inverso 3, ..., el Filtro inverso M de las Figuras 2 y 3 producirán diferentes envolventes en el dominio del tiempo para las bandas espectrales correspondientes, tales como las que se muestran en la Figura 5.
Se recuerda que estas envolventes en el dominio del tiempo de cada banda espectral se hacen iguales, al principio y al final de un bloque de muestras de la señal de entrada x[n] (por ejemplo, la ventana 1 de la Figura 4), a las ganancias de ruido gi[m] y g2[m] calculadas en estos instantes de tiempo. Para la mésima banda espectral, la ganancia de ruido al comienzo del bloque de muestras de la señal de entrada x[n] (trama) es gi[m] y la ganancia de ruido al final del bloque de muestras de la señal de entrada x[n] (trama) es g2[m]. Entre los puntos de inicio (A) y final (B), se hacen las envolventes en el dominio del tiempo (una por banda espectral), más específicamente se interpolan para variar suavemente en el tiempo, de manera que la ganancia de ruido en cada banda espectral evolucione suavemente en la señal en el dominio del tiempo. De esta manera, la forma espectral del ruido de cuantificación evoluciona suavemente en el tiempo, desde el punto A hasta el punto B. Esto se muestra en la Figura 5. La forma espectral punteada en el instante de tiempo C representa la forma espectral instantánea del ruido de cuantificación en algún instante de tiempo entre el comienzo y el final del segmento (puntos A y B).
Para el caso específico del filtro en el dominio de la frecuencia de la Ecuación (1), esto implica las siguientes restricciones para determinar los parámetros a y b en la ecuación de filtro de las ganancias de ruido gi[m] y g2[m]:
Figure imgf000007_0003
Para simplificar la notación, establezcamos gi = gi[m] y g2 = g2[m], y recordemos que esto es solo para la banda espectral Bm[k]. Se obtienen las siguientes relaciones:
De las Ecuaciones (8) y (9), es sencillo, para cada Filtro inverso 1, 2, 3, ..., M, calcular los coeficientes del filtro a y b como una función de gi y g2. Se obtienen las siguientes relaciones:
(10)
Figure imgf000008_0001
(11)
Para resumir, los coeficientes a y b en las Ecuaciones (10) y (11) son los coeficientes a usar en el filtrado en el dominio de la frecuencia de la Ecuación (1) para conformar temporalmente el ruido de cuantificación en esa mésima banda espectral de manera que siga la envolvente en el dominio del tiempo que se muestra en la Figura 6. En el caso especial de la MDCT usada como la transformada en el procesador de transformación 201 de la Figura 2, los signos de las Ecuaciones (10) y (11) se invierten, es decir, los coeficientes de filtro a usar en la Ecuación (1) se convierten en:
( 12)
Figure imgf000008_0002
(13)
Esta inversión en el dominio del tiempo de la Cancelación de solapamiento en el dominio del tiempo (TDAC) es específica para el caso especial de la MDCT.
Ahora, el filtrado inverso de la Ecuación (1) conforma tanto el ruido de cuantificación como la señal misma. Para garantizar un proceso reversible, más específicamente para garantizar que y[n] = x[n] en las Figuras 2 y 3 si el ruido de cuantificación es cero, un filtrado a través del Filtro 1, el Filtro 2, el Filtro 3, ..., el Filtro M también se aplica a cada banda espectral Bm[k] antes de la cuantificación en el procesador Q (Figura 2). El Filtro 1, el Filtro 2, el Filtro 3, ..., el Filtro M de la Figura 2 forman prefiltros (es decir, filtros previos a la cuantificación) que en realidad son el "inverso" del Filtro inverso 1, el Filtro inverso 2, el Filtro inverso 3, ..., el Filtro inverso M. En el caso específico de la Ecuación (1) que representa la función de transferencia del Filtro inverso 1, el Filtro inverso 2, el Filtro inverso 3, ..., el Filtro inverso M, los filtros antes de la cuantificación, más específicamente el Filtro 1, el Filtro 2, el Filtro 3, ..., el Filtro M de la Figura 2 se definen por:
K f \ k ] = aBm[k ] -b B m[ k - \ ] (l4)
En la Ecuación (14), los coeficientes a y b calculados para los Filtros 1, 2, 3, ..., M son los mismos que en las Ecuaciones (10) y (11), o las Ecuaciones (12) y (13) para el caso especial de la TCMD. La Ecuación (14) describe el inverso del filtro recursivo de la Ecuación (1). Nuevamente, si se usa otro tipo o estructura de filtro diferente al de la Ecuación (1), entonces se usa el inverso de este otro tipo o estructura de filtro en lugar de ese de la Ecuación (14).
Otro aspecto es que el concepto puede generalizarse a cualquier forma de ruido de cuantificación en los puntos A y B de las ventanas de la Figura 4, y no se limita a formas de ruido que tengan siempre la misma resolución (el mismo número de bandas espectrales M y el mismo número de coeficientes espectrales X[k] por banda). En la descripción anterior, se supuso que el número M de bandas espectrales Bm[k] es el mismo en las ganancias de ruido gi[m] y g2[m], y que cada banda espectral tiene el mismo número de coeficientes de transformación X[k]. Pero en realidad, esto puede generalizarse de la siguiente manera: cuando se aplican los filtros en el dominio de la frecuencia como en las Ecuaciones (1) y (14), los coeficientes del filtro (por ejemplo, coeficientes a y b) pueden recalcularse siempre que la ganancia de ruido en un contenedor de frecuencia k cambie en cualquiera de las descripciones de forma de ruido en el punto A o el punto B. Como un ejemplo, si en el punto A de la Figura 4, la forma de ruido es constante (solo una ganancia para todo el eje de la frecuencia) y en el punto B de la Figura 5 hay tantas ganancias de ruido diferentes como el número N de coeficientes de transformación X[k] (señal de entrada x[n] después de la aplicación de una transformada en el procesador de transformación 201 de la Figura 2). Entonces, al aplicar los filtros del dominio de la frecuencia de las Ecuaciones (1) y (14), los coeficientes de los filtros volverían a calcularse en cada componente de frecuencia, aunque la descripción del ruido en el punto A no cambie sobre todos los coeficientes. Las ganancias de ruido interpoladas de la Figura 5 comenzarían todas desde la misma amplitud (ganancia de ruido constante en el punto A) y convergerían hacia las diferentes ganancias de ruido individuales en las diferentes frecuencias en el punto B.
Tal flexibilidad permite el uso del dispositivo de conformación de ruido en el dominio de la frecuencia 200 y el método 300 para interpolar la forma espectral y la envolvente en el dominio del tiempo del ruido de cuantificación en un sistema en el que la resolución de la forma del ruido espectral cambia con el tiempo. Por ejemplo, en un códec de velocidad de bits variable, puede haber suficientes bits en algunas tramas (punto A o punto B en las Figuras 4 y 5) para refinar la descripción de las ganancias de ruido al agregar más bandas espectrales o cambiar la resolución de la frecuencia para seguir mejor las llamadas bandas espectrales críticas, o el uso de una cuantificación en varias etapas de las ganancias de ruido, y así sucesivamente. Los filtros y los filtros inversos de las Figuras 2 y 3, descritos anteriormente como que operan por banda espectral, en realidad pueden verse como un único filtro (o un único filtro inverso) de un componente de frecuencia a la vez de manera que los coeficientes de los filtros se actualizan siempre que el punto de inicio o el punto final de la envolvente de ruido deseada cambia en una descripción del nivel de ruido.
En la Figura 7 se ilustra un codificador 700 para codificar señales de audio, cuyo principio puede usarse, por ejemplo, en el Códec unificado de voz y audio (USAC) del Grupo de expertos en imágenes en movimiento (MpeG). Más específicamente, el codificador 700 es capaz de conmutar entre un modo de codificación en el dominio de la frecuencia mediante el uso de, por ejemplo, MDCT y un modo de codificación en el dominio del tiempo mediante el uso de, por ejemplo, ACELP. En este ejemplo particular, el codificador 700 comprende: un codificador ACELP que incluye un cuantificador LPC que calcula, codifica y transmite los coeficientes LPC a partir de un análisis LPC; y un codificador basado en transformación que usa un modelo perceptual (o modelo psicoacústico) y factores de escala para conformar el ruido de cuantificación de los coeficientes espectrales. El codificador basado en transformación comprende un dispositivo como se describió anteriormente, para conformar simultáneamente en el dominio del tiempo y el dominio de la frecuencia el ruido de cuantificación del codificador basado en transformación entre dos límites de trama del codificador basado en transformación. En el que las ganancias del ruido de cuantificación pueden describirse ya sea solo por la información de los coeficientes LPC, o solo por la información de los factores de escala, o por cualquier combinación de ambos. Un selector (no mostrado) elige entre el codificador ACELP que usa el modo de codificación en el dominio del tiempo y el codificador basado en transformación que usa el modo de codificación en el dominio de transformación al codificar una ventana de tiempo de la señal de audio, en dependencia, por ejemplo, del tipo de señal de audio a codificar y/o el tipo de modo de codificación que se usará para ese tipo de señal de audio.
Todavía con referencia a la Figura 7, las operaciones de ventanas se aplican primero en el procesador de ventanas 701 a un bloque de muestras de una señal de audio de entrada. De esta manera, se producen versiones en ventanas de la señal de audio de entrada en las salidas del procesador de ventanas 701. Estas versiones en ventanas de la señal de audio de entrada tienen posiblemente longitudes diferentes en dependencia de los procesadores posteriores en los que se usarán como entrada en la Figura 7.
Como se describió anteriormente, el codificador 700 comprende un codificador ACELP que incluye un cuantificador LPC que calcula, codifica y transmite los coeficientes LPC a partir de un análisis LPC. Más específicamente, con referencia a la Figura 7, el codificador ACELP del codificador 700 comprende un analizador LPC 704, un cuantificador LPC 706, una calculadora de objetivos ACELP 708 y un codificador de excitación 712. El analizador LPC 704 procesa una primera versión en ventana de la señal de audio de entrada del procesador 701 para producir los coeficientes LPC. Los coeficientes LPC del analizador LPC 704 se cuantifican en un cuantificador LPC 706 en cualquier dominio adecuado para la cuantificación de esta información. En una trama ACELP, la conformación de ruido se aplica como conocen bien los expertos en la técnica como un filtro en el dominio del tiempo, mediante el uso de un filtro de ponderación derivado del filtro LPC (coeficientes LPC). Esto se realiza en la calculadora de objetivos ACELP 708 y el codificador de excitación 712. Más específicamente, la calculadora 708 usa una segunda versión en ventana de la señal de audio de entrada (mediante el uso de típicamente una ventana rectangular) y produce en respuesta a los coeficientes LPC cuantificados del cuantificador 706 las llamadas señales objetivo en la codificación ACELP. A partir de las señales objetivo producidas por la calculadora 708, el codificador 712 aplica un procedimiento para codificar la excitación del filtro LPC para el bloque actual de muestras de la señal de audio de entrada.
Como se describió anteriormente, el sistema 700 de la Figura 7 comprende además un codificador basado en transformación que usa un modelo perceptual (o modelo psicoacústico) y factores de escala para conformar el ruido de cuantificación de los coeficientes espectrales, en donde el codificador basado en transformación comprende un dispositivo para conformar simultáneamente en el dominio del tiempo y el dominio de la frecuencia el ruido de cuantificación del codificador basado en transformación. El codificador basado en transformación comprende, como se ilustra en la Figura 7, un procesador MDCT 702, un procesador FDNS inverso 707 y un cuantificador de espectro procesado 711, en donde el dispositivo para conformar simultáneamente en el dominio del tiempo y el dominio de la frecuencia el ruido de cuantificación del codificador basado en transformación comprende el procesador FDNS inverso 707. El procesador MDCT 702 procesa una tercera versión en ventana de la señal de audio de entrada del procesador de ventanas 701 para producir los coeficientes espectrales. El procesador TCMD 702 es un caso específico del procesador más general 201 de la Figura 2 y se entiende que representa la TCMD (Transformada discreta de coseno modificada). Antes de cuantificarse y codificarse (en cualquier dominio adecuado para la cuantificación y codificación de esta información) para su transmisión por el cuantificador 711, los coeficientes espectrales del procesador MDCT 702 se procesan a través del procesador FDNS inverso 707. El funcionamiento del procesador FDNS inverso 707 es como en la Figura 2, que comienza con los coeficientes espectrales X[k] (Figura 2) como entrada al procesador FDNS 707 y termina antes del procesador Q (Figura 2). El procesador FDNS inverso 707 requiere como entrada los conjuntos de ganancias de ruido gi[m] y g2[m] como se describió en la Figura 2. Las ganancias de ruido se obtienen del sumador 709, que suma dos entradas: la salida de un cuantificador de factores de escala 705 y la salida de una calculadora de ganancias de ruido 710. Son posibles cualquier combinación de factores de escala, por ejemplo, de un modelo psicoacústico, y ganancias de ruido, por ejemplo, de un modelo LPC, desde el uso de solo factores de escala hasta el uso de solo ganancias de ruido, hasta cualquier combinación o proporción de los factores de escala y las ganancias de ruido. Por ejemplo, los factores de escala del modelo psicoacústico pueden usarse como un segundo conjunto de ganancias o factores de escala para refinar o corregir las ganancias de ruido del modelo LPC. En consecuencia con otra alternativa, la combinación de las ganancias de ruido y los factores de escala comprende la suma de las ganancias de ruido y los factores de escala, donde los factores de escala se usan como una corrección de las ganancias de ruido. Para producir los factores de escala cuantificados en la salida del cuantificador 705, una cuarta versión en ventana de la señal de entrada del procesador 701 se procesa por un analizador psicoacústico 703 que produce factores de escala no cuantificados que luego se cuantifican por el cuantificador 705 en cualquier dominio adecuado para la cuantificación de esta información. De manera similar, para producir las ganancias de ruido en la salida de la calculadora 710, se suministra a una calculadora de ganancias de ruido 710 los coeficientes LPC cuantificados del cuantificador 706. En un bloque de señal de entrada donde el codificador 700 cambiaría entre una trama ACELP y una trama MDCT, el FDNS solo se aplica a las muestras codificadas con MDCT.
El multiplexor de bits 713 recibe como entrada los coeficientes espectrales cuantificados y codificados del cuantificador de espectro procesado 711, los factores de escala cuantificados del cuantificador 705, los coeficientes LPC cuantificados del cuantificador LPC 706 y la excitación codificada del filtro LPC del codificador 712 y produce en respuesta a estos parámetros codificados una cadena de bits para la transmisión o almacenamiento.
En la Figura 8 se ilustra un decodificador 800 que produce un bloque de señal de síntesis mediante el uso de FDNS, en donde el decodificador puede cambiar entre un modo de decodificación en el dominio de la frecuencia mediante el uso de, por ejemplo, IMDCT y un modo de decodificación en el dominio del tiempo mediante el uso de, por ejemplo, ACELP. Un selector(no mostrado) elige entre el decodificador ACELP que usa el modo de decodificación en el dominio del tiempo y el decodificador basado en transformación que usa el modo de codificación en el dominio de transformación cuando decodifica una ventana de tiempo de la señal de audio de codificación, en dependencia del tipo de codificación de esta señal de audio.
El decodificador 800 comprende un demultiplexor 801 que recibe como entrada la cadena de bits del multiplexor de bits 713 (Figura 7). La cadena de bits recibida se demultiplexa para recuperar los coeficientes espectrales cuantificados y codificados del cuantificador de espectro procesado 711, los factores de escala cuantificados del cuantificador 705, los coeficientes LPC cuantificados del cuantificador LPC 706 y la excitación codificada del filtro LPC del codificador 712.
Los coeficientes LPC cuantificados recuperados (ventana codificada por transformación de la señal de audio en ventana) del demultiplexor 801 se suministran a un decodificador LPC 804 para producir los coeficientes LPC decodificados. La excitación codificada recuperada del filtro LPC del demultiplexor 301 se suministra a y decodificada por un decodificador de excitación ACELP 805. Un filtro de síntesis ACELP 806 responde a los coeficientes LPC decodificados del decodificador 804 y a la excitación decodificada del decodificador 805 para producir una señal de audio decodificada por ACELP.
Los factores de escala cuantificados recuperados se suministran a y decodifican por un decodificador de factores de escala 803.
Los coeficientes espectrales cuantificados y codificados recuperados se suministran a un decodificador de coeficientes espectrales 802. El decodificador 802 produce los coeficientes espectrales decodificados que se usan como entrada por un procesador FDNS 807. El funcionamiento del procesador FDNS 807 como se describió en la Figura 2, comienza después del procesador Q y termina antes del procesador 204 (procesador de transformación inversa). El procesador FDNS 807 se suministra con los coeficientes espectrales decodificados del decodificador 802, y una salida del sumador 808 que produce conjuntos de ganancias de ruido, por ejemplo los conjuntos de ganancias de ruido descritos anteriormente gi[m ] y g2[m] resultantes de la suma de los factores de escala decodificados del decodificador 803 y las ganancias de ruido calculadas por la calculadora 809. La calculadora 809 calcula las ganancias de ruido de los coeficientes LPC decodificados producidos por el decodificador 804. Como en el codificador 700 (Figura 7), son posibles cualquier combinación de factores de escala (de un modelo psicoacústico) y ganancias de ruido (de un modelo LPC), desde el uso de solo factores de escala hasta el uso de solo ganancias de ruido, hasta cualquier proporción de factores de escala y ganancias de ruido. Por ejemplo, los factores de escala del modelo psicoacústico pueden usarse como un segundo conjunto de ganancias o factores de escala para refinar o corregir las ganancias de ruido del modelo LPC. En consecuencia con otra alternativa, la combinación de las ganancias de ruido y los factores de escala comprende la suma de las ganancias de ruido y los factores de escala, donde los factores de escala se usan como una corrección de las ganancias de ruido. Los coeficientes espectrales resultantes en la salida del procesador FDNS 807 se someten a un procesador IMDCT 810 para producir una señal de audio decodificada por transformación.
Finalmente, un procesador de ventanas y superposición/adición 811 combina la señal de audio decodificada por ACELP del filtro de síntesis ACELP 806 con la señal de audio decodificada por transformación del procesador IMDCT 810 para producir una señal de audio de síntesis.
Aunque la presente invención se ha descrito aquí anteriormente a través de una realización ilustrativa de la misma, esta realización se puede modificar a voluntad dentro del alcance de las reivindicaciones adjuntas.

Claims (2)

REIVINDICACIONES
1. Un método de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido de cuantificación en una señal de audio en ventana y codificada por transformación, caracterizado porque comprende:
procesar (305) las bandas espectrales cuantificadas (Ci[k], C2f[k], C3f[k], ..., CM[k]) de la señal de audio en ventana y codificada por transformación a través de los filtros inversos respectivos (Filtro inverso 1, Filtro inverso 2, Filtro inverso 3, ..., Filtro inverso M) para producir las bandas espectrales decodificadas (Ci[k], C2[k], C3[k], ..., CM[k]);
concatenar (306) las bandas espectrales decodificadas (Ci[k], C2[k], C3[k], ..., CM[k]) para producir los coeficientes espectrales decodificados (Y[k]); y
transformación inversa (307) de los coeficientes espectrales decodificados (Y[k]) para producir un bloque decodificado de muestras en el dominio del tiempo (y[n]) de la señal de audio;
- en donde el procesamiento (305) de las bandas espectrales cuantificadas (Ci[k], C2f[k], C3f[k], ..., CM[k]) comprende, para cada banda espectral cuantificada (Cif[k], C2[k], C3f[k], ..., CM[k]):
calcular (308) las ganancias de ruido gi[m] y g2[m] que representan las formas espectrales del ruido de cuantificación, en donde las ganancias de ruido gi[m] y g2[m] corresponden a análisis respectivos en un punto medio (A) de una primera transición entre una ventana de procesamiento de transformación actual (ventana 1) y una ventana de procesamiento de transformación anterior (ventana 0) y en un punto medio (B) de una segunda transición entre la ventana de procesamiento de transformación actual (ventana 1) y una ventana de procesamiento de transformación posterior (ventana 2), y en donde los análisis respectivos comprenden cada uno (i) aplicar una Codificación Predictiva Lineal (LPC) a la señal de audio para obtener un predictor a corto plazo, (ii) derivar un filtro de ponderación del predictor a corto plazo, y (iii) mapear el filtro de ponderación en el dominio de la frecuencia para obtener las ganancias de ruido g 1[m] y g2[m]; y
filtrar los coeficientes espectrales cuantificados (Yf[k]) de la banda espectral cuantificada mediante el uso de la relación:
Figure imgf000012_0001
donde a y b son los parámetros del filtro y m identifica la banda espectral, y donde
a = 2 ((gi[m]g2[m])/(gi[m] g2[mj))
b = {{gi[m] - gifmj) / (gifm] g2Í¡n]))
2. Un dispositivo de conformación de ruido en el dominio de la frecuencia para interpolar una forma espectral y una envolvente en el dominio del tiempo del ruido de cuantificación en una señal de audio en ventana y codificada por transformación, caracterizado porque comprende:
medios para procesar las bandas espectrales cuantificadas (Cif[k], C2f[k], C3[k], ..., CM[k]) de la señal de audio en ventana y codificada por transformación a través de los filtros inversos respectivos (Filtro inverso 1, Filtro inverso 2, Filtro inverso 3, ..., Filtro inverso M) para producir las bandas espectrales decodificadas (Ci[k], C2[k], C3[k], ..., CM[k]);
medios (203) para concatenar las bandas espectrales decodificadas (Ci[k], C2[k], C3[k], ..., CM[k]) para producir los coeficientes espectrales decodificados (Y[k]); y
medios (204) para la transformación inversa de los coeficientes espectrales decodificados (Y[k]) para producir un bloque decodificado de muestras en el dominio del tiempo (y[n]) de la señal de audio;
- en donde los medios para procesar las bandas espectrales cuantificadas (Ci[k], C2[k], C3[k],..., CM[k]) comprenden, para cada banda espectral cuantificada (Ci[k], Czfk], Cs[k], ..., CM[k]):
medios (205) para calcular las ganancias de ruido gi[m] y g2[m] que representan las formas espectrales del ruido de cuantificación en donde las ganancias de ruido gi[m] y g2[m] corresponden a análisis respectivos en un punto medio (a) de una primera transición entre una ventana de procesamiento de transformación actual (ventana 1) y una ventana de procesamiento de transformación anterior (ventana 0) y en un punto medio (B) de una segunda transición entre la ventana de procesamiento de transformación actual (ventana 1) y una ventana de procesamiento de transformación posterior (ventana 2); y en donde los análisis respectivos comprenden cada uno (i) aplicar una Codificación Predictiva Lineal (LPC) a la señal de audio para obtener un predictor a corto plazo, (ii) derivar un filtro de ponderación del predictor a corto plazo, y (iii) mapear el filtro de ponderación en el dominio de la frecuencia para obtener las ganancias de ruido gi[m ] y g2[m];
medios para filtrar los coeficientes espectrales cuantificados (Yf[k]) de la banda espectral cuantificada mediante el uso de la relación:
Figure imgf000013_0001
donde a y b son los parámetros del filtro y m identifica la banda espectral, y donde
ü - 2 ((gi[m]g2[m])/(gi[mj + g2[m])) b = ((g2Ímj - gi[mj) / (gi[m] + g2[m]))
ES20166953T 2009-10-15 2010-10-15 Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC Active ES2888804T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US27264409P 2009-10-15 2009-10-15

Publications (1)

Publication Number Publication Date
ES2888804T3 true ES2888804T3 (es) 2022-01-07

Family

ID=43875767

Family Applications (3)

Application Number Title Priority Date Filing Date
ES20166952T Active ES2884133T3 (es) 2009-10-15 2010-10-15 Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC
ES10822970T Active ES2797525T3 (es) 2009-10-15 2010-10-15 Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC
ES20166953T Active ES2888804T3 (es) 2009-10-15 2010-10-15 Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC

Family Applications Before (2)

Application Number Title Priority Date Filing Date
ES20166952T Active ES2884133T3 (es) 2009-10-15 2010-10-15 Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC
ES10822970T Active ES2797525T3 (es) 2009-10-15 2010-10-15 Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC

Country Status (6)

Country Link
US (1) US8626517B2 (es)
EP (3) EP3693963B1 (es)
ES (3) ES2884133T3 (es)
IN (1) IN2012DN00903A (es)
PL (1) PL2489041T3 (es)
WO (1) WO2011044700A1 (es)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3693963B1 (en) * 2009-10-15 2021-07-21 VoiceAge Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
EP2524374B1 (en) 2010-01-13 2018-10-31 Voiceage Corporation Audio decoding with forward time-domain aliasing cancellation using linear-predictive filtering
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CA2929800C (en) * 2010-12-29 2017-12-19 Samsung Electronics Co., Ltd. Apparatus and method for encoding/decoding for high-frequency bandwidth extension
US10121481B2 (en) 2011-03-04 2018-11-06 Telefonaktiebolaget Lm Ericsson (Publ) Post-quantization gain correction in audio coding
RU2660605C2 (ru) 2013-01-29 2018-07-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Концепция заполнения шумом
WO2014118152A1 (en) * 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-frequency emphasis for lpc-based coding in frequency domain
CN111179954B (zh) * 2013-03-04 2024-03-12 声代Evs有限公司 用于降低时域解码器中的量化噪声的装置和方法
MY181026A (en) 2013-06-21 2020-12-16 Fraunhofer Ges Forschung Apparatus and method realizing improved concepts for tcx ltp
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
US9276797B2 (en) 2014-04-16 2016-03-01 Digi International Inc. Low complexity narrowband interference suppression
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483880A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
US11295750B2 (en) 2018-09-27 2022-04-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for noise shaping using subspace projections for low-rate coding of speech and audio
EP3629327A1 (en) * 2018-09-27 2020-04-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus and method for noise shaping using subspace projections for low-rate coding of speech and audio
KR20220066749A (ko) * 2020-11-16 2022-05-24 한국전자통신연구원 잔차 신호의 생성 방법과 그 방법을 수행하는 부호화기 및 복호화기

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5781888A (en) * 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
US6363338B1 (en) * 1999-04-12 2002-03-26 Dolby Laboratories Licensing Corporation Quantization in perceptual audio coders with compensation for synthesis filter noise spreading
WO2002015587A2 (en) * 2000-08-16 2002-02-21 Dolby Laboratories Licensing Corporation Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
US7062040B2 (en) * 2002-09-20 2006-06-13 Agere Systems Inc. Suppression of echo signals and the like
US7650277B2 (en) * 2003-01-23 2010-01-19 Ittiam Systems (P) Ltd. System, method, and apparatus for fast quantization in perceptual audio coders
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
MXPA06012617A (es) * 2004-05-17 2006-12-15 Nokia Corp Codificacion de audio con diferentes longitudes de cuadro de codificacion.
CN100592389C (zh) * 2008-01-18 2010-02-24 华为技术有限公司 合成滤波器状态更新方法及装置
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
EP1984911A4 (en) * 2006-01-18 2012-03-14 Lg Electronics Inc DEVICE AND METHOD FOR SIGNAL CODING AND DECODING
US8036903B2 (en) * 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
US20080294446A1 (en) * 2007-05-22 2008-11-27 Linfeng Guo Layer based scalable multimedia datastream compression
US8301440B2 (en) * 2008-05-09 2012-10-30 Broadcom Corporation Bit error concealment for audio coding systems
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
EP3693963B1 (en) * 2009-10-15 2021-07-21 VoiceAge Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
US9208792B2 (en) * 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection

Also Published As

Publication number Publication date
PL2489041T3 (pl) 2020-11-02
EP2489041A4 (en) 2013-12-18
EP3693963B1 (en) 2021-07-21
EP3693964B1 (en) 2021-07-28
EP3693964A1 (en) 2020-08-12
WO2011044700A1 (en) 2011-04-21
US20110145003A1 (en) 2011-06-16
EP3693963A1 (en) 2020-08-12
EP2489041B1 (en) 2020-05-20
ES2884133T3 (es) 2021-12-10
IN2012DN00903A (es) 2015-04-03
ES2797525T3 (es) 2020-12-02
US8626517B2 (en) 2014-01-07
EP2489041A1 (en) 2012-08-22

Similar Documents

Publication Publication Date Title
ES2888804T3 (es) Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC
JP7513669B2 (ja) 符号化されたオーディオ信号を復号するためのデコーダおよびオーディオ信号を符号化するためのエンコーダ
ES2453098T3 (es) Códec multimodo de audio
ES2401487T3 (es) Aparato y procedimiento para la codificación/decodificación de una señal de audio utilizando un esquema de conmutación de generación de señal ajena
ES2901109T3 (es) Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
RU2577195C2 (ru) Аудиокодер, аудиодекодер и связанные способы обработки многоканальных аудиосигналов с использованием комплексного предсказания
ES2604983T3 (es) Ajuste de nivel en el dominio del tiempo para decodificación o codificación de señales de audio
CN101878504B (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
ES2911893T3 (es) Codificador de audio, decodificador de audio y métodos relacionados para procesar señales de audio estéreo usando una dirección de predicción variable
ES2644730T3 (es) Postfiltro de código de audio
ES2380307T3 (es) Esquema de codificación/decodificación de audio de tasa de transmisión de bits baja con preprocesamiento común.
ES2660392T3 (es) Codificación de coeficientes espectrales de un espectro de una señal de audio
ES2391715T3 (es) Esquema de codificación/decodificación de audio que tiene una derivación conmutable
ES2433043T3 (es) Conmutación del modo de codificación ACELP a TCX
ES2145737T5 (es) Codificador digital de voz con predictor a largo plazo mejorado por resolucion de submuestreos.
CN105122357A (zh) 频域中基于cpl进行编码的低频增强
ES2950408T3 (es) Decodificación con reducción de escala de señales de audio
ES2360898T3 (es) Codificación por transformada, utilizando ventanas de ponderación y con retardo pequeño.
ES2707473T3 (es) Codificación de audio de multicanal utilizando predicción compleja y señalización de estimación explícita