ES2375285T3 - Técnicas de codificación mejoradas que utilizan fase y magnitud espectrales estimadas derivadas de coeficientes mcdt (transformaciones de coseno discretas modificadas). - Google Patents

Técnicas de codificación mejoradas que utilizan fase y magnitud espectrales estimadas derivadas de coeficientes mcdt (transformaciones de coseno discretas modificadas). Download PDF

Info

Publication number
ES2375285T3
ES2375285T3 ES05711553T ES05711553T ES2375285T3 ES 2375285 T3 ES2375285 T3 ES 2375285T3 ES 05711553 T ES05711553 T ES 05711553T ES 05711553 T ES05711553 T ES 05711553T ES 2375285 T3 ES2375285 T3 ES 2375285T3
Authority
ES
Spain
Prior art keywords
spectral components
spectral
source signal
components
transformations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05711553T
Other languages
English (en)
Inventor
Corey I. Cheng
Michael J. Smithers
David N. Lathrop
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2375285T3 publication Critical patent/ES2375285T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Discrete Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stabilization Of Oscillater, Synchronisation, Frequency Synthesizers (AREA)
  • Optical Communication System (AREA)
  • Complex Calculations (AREA)
  • Surface Acoustic Wave Elements And Circuit Networks Thereof (AREA)

Abstract

Un método de procesamiento de información que representa una señal fuente que transporta un contenido destinado al entendimiento humano, comprendiendo el método: recibir unos primeros componentes espectrales (31) que fueron generados por la aplicación de una primera batería de filtros de análisis (3), y de una función ventana de análisis a la señal fuente, en el que los primeros componentes espectrales representan el contenido espectral de la señal fuente expresado en un primer subespacio de un espacio multidimensional; obtener unos componentes intermedios a partir de los primeros componentes espectrales de tres segmentos contiguos de la señal fuente, en el que los primeros componentes intermedios son derivados de los primeros componentes espectrales en un segmento central de los tres segmentos contiguos, y los segundos componentes espectrales son derivados de los primeros componentes espectrales en los segmentos anteriores y posteriores; obtener unos segundos componentes espectrales (37) a partir de la suma de operaciones de convolución de los primeros y segundos componentes intermedios con las respuestas de impulso (33) de filtros hipotéticos relacionadas con el efecto combinado de una batería de filtros de síntesis inversa a la primera batería de filtros de análisis, de una función ventana de síntesis asociada, de una segunda batería de filtros de análisis posterior a la batería de filtros de síntesis, y de la función ventana de análisis, en el que los segundos componentes espectrales representan el contenido espectral de la señal fuente expresado en un segundo subespacio del espacio multidimensional que incluye una parte del espacio multidimensional no incluida en el primer subespacio; obtener unas medidas estimadas de la magnitud o fase (38, 39) usando los primeros componentes espectrales (31) y los segundos componentes espectrales (37); y aplicar un proceso adaptativo a los primeros componentes espectrales (31) para generar la información procesada, en el que el proceso adaptativo es responsable de las medidas de magnitud o de fase (38, 39) estimadas.

Description

Técnicas de codificación mejoradas que utilizan fase y magnitud espectrales estimadas derivadas de coeficientes MCDT (transformaciones de coseno discretas modificadas).
CAMPO TÉCNICO
El presente invento proporciona un proceso eficiente para la estimación exacta de la fase y magnitud espectrales a partir de la información espectral obtenida de diversos tipos de baterías de filtros de análisis que incluyen los aplicados por las Transformaciones de Coseno Discretas Modificadas y las Transformaciones de Seno Discretas Modificadas. Estas estimaciones exactas pueden ser usadas en diversas aplicaciones de procesamiento de señales tales como codificación de audio y codificación de vídeo.
En la siguiente discusión se hace una mención más particular de aplicaciones de codificación de audio usando baterías de filtros aplicados por una Transformación de Coseno Discreta Modificada, aunque el presente invento también se puede aplicar a otras aplicaciones y a otras aplicaciones de baterías de filtros.
TÉCNICA ANTERIOR
Muchas aplicaciones de codificación intentan reducir la cantidad de información requerida para representar adecuadamente una señal fuente. Reduciendo los requerimientos de capacidad de información se puede transmitir una representación de la señal por canales que tienen una anchura de banda menor, o ser almacenada en medios que usan un menor espacio.
La codificación puede reducir los requerimientos de capacidad de información de una señal fuente mediante la eliminación ya sea de componentes redundantes o de componentes irrelevantes en la señal. Los denominados métodos y sistemas de codificación perceptual a menudo usan baterías de filtros para reducir la redundancia descorrelacionando una señal fuente usando un conjunto base de componentes espectrales, y reducen la irrelevancia mediante la cuantificación adaptativa de los componentes espectrales de acuerdo criterios psicoperceptuales. Un proceso de codificación que adapta la resolución de cuantificación más basta puede reducir los requerimientos de información en una mayor medida pero también introduce unos mayores niveles de error de cuantificación o de “ruido de cuantificación” en la señal. Los sistemas de codificación perceptual intentan controlar el nivel de ruido de cuantificación de forma que el ruido sea “enmascarado” o hecho imperceptible por otro contenido espectral de la señal. Estos sistemas típicamente usan modelos perceptuales para predecir los niveles de ruido de cuantificación que pueden ser enmascarados por una señal dada.
En sistemas de codificación perceptual de audio, por ejemplo, el ruido de cuantificación es a menudo controlado adaptando resoluciones de cuantificación de acuerdo con predicciones de audibilidad obtenidas a partir de modelos perceptuales basados en estudios psicoacústicos tal como el descrito en E. Zwicker, Psichoacoustics, 1981. Un ejemplo de un modelo perceptual que predice la audibilidad de los componentes espectrales en una señal se discute en M. Schroeder y otros: “Optimizing Digital Speech Coders by Exploiting Masking Properties of the Human Ear” (Optimización de codificadores de voz digitales mediante el aprovechamiento de las propiedades de enmascaramiento del oído humano), J. Acoust. Soc. Am., Diciembre 1979, pp 1.647 - 1.652.
No es necesario incluir en la señal codificada los componentes espectrales que se consideran irrelevantes debido a que se ha predicho de ellos que son imperceptibles. Otros componentes espectrales considerados como relevantes pueden ser cuantificados usando una resolución de cuantificación que está adaptada para ser lo suficientemente precisa para asegurar que el ruido de cuantificación sea casi imperceptible por otros componentes espectrales en la señal fuente. Las predicciones exactas de perceptibilidad por un modelo perceptual permiten un sistema de codificación perceptual para adaptar la resolución de cuantificación de modo más óptimo, dando lugar a menos perturbaciones audibles.
Un sistema de codificación que usa modelos conocidos para proporcionar predicciones no exactas de perceptibilidad no puede asegurar de forma fiable que el ruido de cuantificación sea hecho imperceptible a menos que se use una resolución de cuantificación más precisa, que la que de otro modo sería requerida si se pudiera disponer de una predicción más exacta. Muchos modelos perceptuales tales como el discutido por Schroeder y otros están basados en la magnitud del componente espectral, por lo que las predicciones exactas realizadas por estos modelos dependen de las medidas exactas de la magnitud del componente espectral.
Las medidas exactas de la magnitud del componente espectral influyen también en la calidad de funcionamiento de otros tipos de procesos de codificación además de la cuantificación. En dos tipos de procesos de codificación conocidos como regeneración y acoplamiento un codificador reduce los requerimientos de información de las señales fuente mediante la exclusión de los componentes espectrales seleccionados a partir de una representación codificada de las señales fuente, y un decodificador sintetiza sustitutos para los componentes espectrales que faltan. En la regeneración espectral el codificador genera una representación de una parte de la banda de base de una señal fuente que excluye otras partes del espectro. El decodificador sintetiza las partes del espectro que faltan usando la parte de la banda de base y la información colateral que transporta alguna medida de nivel espectral de las partes que faltan, y combina las dos partes para obtener una réplica imperfecta de la señal fuente original. Un ejemplo de un sistema de codificación de audio que usa la regeneración espectral está descrito en la solicitud de patente internacional Nº PCT/US03/08895 presentada el 21 de marzo de 2003, publicación Nº WO 03/083834 hecha pública el 9 de octubre de 2003. En el acoplamiento el codificador genera una representación compuesta de componentes espectrales de muchos canales de señales fuente, y el decodificador sintetiza los componentes espectrales de muchos canales usando la representación compuesta y la información colateral que transporta alguna medida de nivel espectral de cada canal de señal fuente. Un ejemplo de un sistema de codificación de audio que usa un acoplamiento se describe en documento del Advanced Television Systems Committee (ATSC) (Comisión de sistemas de televisión avanzados) A/52A titulado “Revision A to Digital Audio Compression (AC-3) Standard” (Revisión A de la norma de compresión (AC-3) de audio digital) hecha pública el 20 de agosto de 2001.
El funcionamiento de estos sistemas de codificación puede ser mejorado si el decodificador es capaz de sintetizar los componentes espectrales que conservan las magnitudes de los componentes espectrales correspondientes en las señales fuente originales. El funcionamiento del acoplamiento puede también ser mejorado si se dispone de medidas de fase exactas de forma que puedan ser evitadas o compensadas las distorsiones causadas por el acoplamiento de señales fuera de fase.
Desafortunadamente, algunos sistemas de codificación usan unos tipos particulares de baterías de filtros para derivar una expresión de componentes espectrales que hagan difícil obtener medidas exactas de la magnitud o de la fase del componente espectral. Dos tipos comunes de sistemas de codificación se denominan codificación de subbanda y codificación de transformación. Las baterías de filtros en ambos sistemas de codificación de subbanda y de codificación de transformación pueden ser aplicadas mediante varias técnicas de procesamiento de señales que incluyen diversas transformaciones de dominio temporal en dominio de frecuencia. Véase J. Tribolet y otros, “Frequency Domain Coding of Speech” (Codificación de voz en dominio de frecuencia), IEEE Trans. Acoust., Speech and Signal Proc., ASSP – 27 de octubre de 1979, pp. 512-530.
Algunas transformaciones tales como la Transformación de Fourier Discreta (DFT) o su aplicación eficiente, la Transformación de Fourier Rápida (FFT), proporcionan un conjunto de componentes espectrales o coeficientes de transformación a partir de los cuales se puede calcular fácilmente la magnitud y la fase de los componentes espectrales. Los componentes espectrales de la DFT, por ejemplo, son representaciones multidimensionales de una señal fuente. Específicamente, la DFT, que puede ser usada en aplicaciones de codificación de audio y de codificación de vídeo, proporciona un conjunto de coeficientes de valor complejo cuyas partes real e imaginaria pueden ser expresadas como coordenadas en un espacio bidimensional. La magnitud de cada componente espectral proporcionada por tal transformación puede ser obtenida fácilmente de cada coordenada del componente en el espacio multidimensional usando cálculos sobradamente conocidos.
Sin embargo, algunas transformaciones tales como la Transformación de Coseno Discreta proporcionan unos componentes espectrales que hacen difícil obtener una medida exacta de la magnitud o fase del componente espectral. Los componentes espectrales de la DCT, por ejemplo, representan el componente espectral de una señal fuente en solamente un subespacio del espacio multidimensional requerido para transportar exactamente la fase y magnitud espectrales. En aplicaciones de codificación de audio y codificación de vídeo típicas, por ejemplo, una DCT proporciona un conjunto de componentes espectrales de valores reales o componentes de transformación que son expresados en un subespacio unidimensional del espacio real/imaginario bidimensional anteriormente mencionado. La magnitud de cada componente espectral proporcionado por transformaciones como la DCT no puede ser obtenida fácilmente a partir de cada coordenada del componente en el subespacio correspondiente.
Esta característica de la DCT es compartida por una Transformación de Coseno Discreta Modificada (MDCT) que está descrita en J. Princen y otros, “Subband Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation” (Codificación de Transformación de Subbanda usando diseños de batería de filtros basados en la anulación del solape virtual del dominio temporal), ICASSP 1987 Conf. Proc., mayo 1987, pp 2.161–64. La MDCT y su Transformación de Coseno Discreta Modificada Inversa (IMDCT) han obtenido un uso más extendido en muchos sistemas de codificación debido a que permiten la aplicación de un sistema de baterías de filtros de análisis/síntesis muestreados críticamente que facilita la perfecta reconstrucción de segmentos solapados de una señal fuente. La reconstrucción perfecta se refiere a la propiedad de un par de baterías de filtros de análisis/síntesis para reconstruir perfectamente una señal fuente en la ausencia de errores causados por la aritmética de precisión finita. El muestreo crítico se refiere a la propiedad de una batería de filtros de análisis para generar una cantidad de componentes espectrales que no sea mayor que la cantidad de muestras usadas para transportar la señal fuente. Estas propiedades son muy atractivas en muchas aplicaciones de codificación debido a que el muestreo crítico reduce el número de componentes espectrales que tienen que ser codificados y transportados en una señal codificada.
El concepto de muestreo crítico merece algún comentario. Aunque la DFT o la DCT, por ejemplo, generan un componente espectral para cada muestra en un segmento de la señal fuente, los sistemas de análisis/síntesis de las DFT y DCT en muchas aplicaciones de codificación no proporcionan un muestreo crítico debido a que la transformación de análisis se aplica a una secuencia de segmentos de señal que se solapan. El solapamiento permite el uso de funciones ventana de forma no rectangular que mejoran las características de respuesta de frecuencia de la batería de filtros de análisis y eliminan perturbaciones de bloqueo; sin embargo, el solapamiento también impide la reconstrucción perfecta con el muestreo crítico debido a que la batería de filtros de análisis tiene que generar más valores de coeficientes que el número de muestras de señal fuente. Esta pérdida de muestreo crítico aumenta los requerimientos de información de la señal codificada.
Como se ha mencionado antes, las baterías de filtros aplicadas por la MDCT y la IMDCT son atractivas en muchos sistemas de codificación debido a que proporcionan una reconstrucción perfecta de los segmentos de solapamiento de una señal fuente con muestreo crítico. Desafortunadamente, estas baterías de filtros son similares a la DCT en que los componentes espectrales de la MDCT representan el componente espectral de una señal fuente en sólo un subespacio del espacio multidimensional requerido para transportar de forma exacta la fase y magnitud espectrales. Las medidas exactas de la magnitud o fase espectrales no pueden obtenerse fácilmente a partir de los componentes espectrales o coeficientes de transformación generados por la MDCT; por lo tanto, la calidad de funcionamiento de la codificación de muchos sistemas que usan la batería de filtros de la MDCT es subóptima debido a que la exactitud de predicción de los modelos perceptuales está degradada, y la conservación de las magnitudes de los componentes espectrales mediante el proceso de sintetización está deteriorada.
Anteriores intentos de soslayar esta deficiencia de diversas baterías de filtros como las de MDCT y DCT no han sido satisfactorios por diversas razones. Una técnica se expone en “ISO/IEC 11172-3: 1993(E) Coding of Moving Pictures and Associated Audio for Digital Storage Media at Up to About 1.5 Mbit/s” (Codificación de imágenes en movimiento y de audio asociadas para medios de almacenamiento digitales hasta aproximadamente 1,5 Mbit/s) ISO/IEC JTC 1/SC29/WG11, Parte III Audio. De acuerdo con esta técnica, un conjunto de baterías de filtros que incluye varias baterías de filtros basados en MDCT se usa para derivar medidas exactas de las magnitudes de los componentes espectrales. Esta técnica no es atractiva por al menos dos motivos: (1) se requieren unos recursos de cálculo considerables en el codificador para aplicar la batería de filtros FFT necesaria para derivar las medidas de magnitud, y (2) el procesamiento para obtener medidas de magnitud exactas es realizado en el codificador, por lo que la señal codificada requiere una anchura de banda adicional para transportar estas medidas de magnitud del componente espectral al decodificador.
Otra técnica que se describe en la patente de EEUU 5.727.119, de 10 de marzo de 1998, utiliza dos baterías de filtros de banda lateral única muestreadas críticamente para generar dos representaciones espectrales de una señal y calcular la magnitud y la fase a partir de estas dos representaciones. Aunque este enfoque es computacionalmente más eficiente que la técnica expuesta en el documento ISO/IEC antes mencionado, no es atractivo por los dos mismos motivos.
Otra técnica evita recurrir a cualquier anchura de banda adicional para transportar las medidas de magnitud del componente espectral mediante el cálculo de estas medidas en el decodificador. Esto se hace aplicando una batería de filtros de síntesis a los componentes espectrales decodificados para recuperar una réplica de la señal fuente, aplicando una batería de filtros de síntesis a la señal recuperada para obtener un segundo conjunto de componentes espectrales en cuadratura con los componentes espectrales decodificados, y calculando la magnitud del componente espectral a partir de los dos conjuntos de componentes espectrales. Esta técnica tampoco es atractiva debido a los considerables recursos de cálculo requeridos en el decodificador para aplicar la batería de filtros de análisis necesaria para obtener el segundo conjunto de componentes espectrales.
Otra técnica más, descrita en S. Merdjani y otros, “Direct Estimation of Frequency From MCT-Encoded Files” (Estimación directa de la frecuencia a partir de ficheros codificados MCT), Proc. of the 6th Int. Conf. on Digital Audio Effects (DAFx-03), Londres, septiembre de 2003, estima la frecuencia, magnitud y fase de una señal fuente sinusoidal a partir de un “espectro regularizado” derivado a partir de los coeficientes MDCT. Esta técnica supera las desventajas mencionadas anteriormente aunque tampoco es satisfactoria para aplicaciones de codificación típicas debido a que sólo es aplicable a una señal fuente muy simple que sólo tiene una sinusoide.
Otra técnica, la cual se expone en la solicitud de patente de EEUU Nº 09/948.053, publicación número US 2003/0093282 A1 hecha pública el 15 de mayo de 2003, es capaz de derivar los coeficientes DFT a partir de los coeficientes MDCT, aunque no obstante la técnica expuesta no obtiene medidas de la magnitud o la fase de los componentes espectrales representados por los coeficientes MDCT propiamente dichos. Además, la técnica expuesta no utiliza medidas de magnitud o de fase para adaptar procesos para codificar o decodificar la información que representan los coeficientes MDCT.
Lo que se necesita es una técnica que proporcione estimaciones exactas de la magnitud o fase a partir de los componentes espectrales generados por baterías de filtros de análisis tales como la MDCT, que también evita o supera las deficiencias de las técnicas conocidas.
EXPOSICIÓN DEL INVENTO
Este objeto se consigue con un método y aparato como el reivindicado en las reivindicaciones 1 y 21 y un medio para transportar un programa para ejecutar el método como se reivindica en la reivindicación 20.
Las diversas características del presente invento y de sus realizaciones preferidas pueden ser entendidas mejor con referencia a la siguiente discusión, y los dibujos que se acompañan en los que iguales números de referencia se refieren a iguales elementos en las diversas figuras. Los contenidos de la siguiente discusión y los dibujos se exponen solamente como ejemplos y debería considerarse que representan limitaciones sobre el alcance del presente invento.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
La Figura 1 es un diagrama de bloques esquemático de un transmisor usado en un sistema de codificación. La Figura 2 es un diagrama de bloques esquemático de un receptor usado en un sistema de codificación. La Figura 3 es un diagrama de bloques esquemático de un dispositivo que obtiene medidas de magnitud o de fase del componente espectral de acuerdo con diversos aspectos del presente invento. La Figura 4 es un diagrama de bloques esquemático que incorpora diversos aspectos del presente invento. La Figura 5 es un diagrama de bloques esquemático de un receptor que incorpora diversos aspectos del presente invento. Las Figuras 6-8 son ilustraciones gráficas de respuestas de impulso que pueden ser usadas con aplicaciones de ejemplos del presente invento. La Figura 9 es un diagrama de bloques esquemático de un dispositivo que puede ser usado para llevar a cabo diversos aspectos del presente invento.
MODOS DE REALIZACIÓN DEL INVENTO
A. Introducción
El presente invento permite medidas exactas de magnitud o de fase obtenidas a partir de los componentes espectrales generados por baterías de filtros de análisis tales como la Transformación de Coseno Discreta Modificada (MDCT) mencionada anteriormente. Diversos aspectos del presente invento pueden ser usados en varias aplicaciones que incluyen una codificación de audio y de vídeo. Las Figuras 1 y 2 ilustran diagramas de bloques esquemáticos de un transmisor y de un receptor, respectivamente, en un sistema de codificación que puede incorporar diversos aspectos del presente invento. Las características del transmisor y el receptor ilustrados se discuten brevemente en las siguientes secciones. Después de esta exposición se discuten las características de algunas baterías de filtros de análisis y de síntesis que son pertinentes al cálculo de medidas de magnitud y de fase.
1.
Transmisor
2.
El transmisor ilustrado en la Figura 1 aplica la batería de filtros de análisis 3 a una señal fuente recibida del trayecto 1 para generar los componentes espectrales que representan el contenido espectral de la señal fuente, aplica el codificador 5 a los componentes espectrales para generar información codificada, y aplica el formateador 8 a la información codificada para generar una señal de salida adecuada para transmisión a lo largo del trayecto 9. La señal de salida puede ser entregada inmediatamente a un receptor acompañante o registrado para una entrega posterior. La batería de filtros 3 puede ser aplicada en diversas formas que incluyen filtros de respuesta de impulso infinito (IIR), filtros de respuesta de impulso finito (FIR), filtros de celosía y transformaciones de ondas pequeñas.
Aspectos del presente invento se describen más adelante con referencia a aplicaciones estrechamente relacionadas con la MDCT, aunque no obstante, el presente invento no está limitado por estas aplicaciones particulares.
En esta exposición los términos como “codificador” y “codificación” no pretenden implicar cualquier tipo específico de procesamiento de información. Por ejemplo, la codificación se usa a menudo para reducir los requerimientos de capacidad de información; sin embargo, estos términos en esta exposición no se refieren necesariamente a este tipo de procesamiento. El codificador 5 puede realizar esencialmente cualquier tipo de procesamiento que se desee. En una aplicación la información codificada es generada cuantificando los componentes espectrales de acuerdo con un modelo perceptual. En otra aplicación el codificador 5 aplica un proceso de acoplamiento a muchos canales de componentes espectrales para generar una representación compuesta. En otra aplicación más se descartan los componentes espectrales de una parte de una anchura de banda de la señal y una estimación de la envolvente espectral de la parte descartada se incluye en la información codificada. Ningún tipo particular de codificación es importante para el presente invento.
3. Receptor
El receptor ilustrado en la Figura 2 aplica el desformateador 23 a una señal de entrada recibida del trayecto 21 para obtener información codificada, aplica el decodificador 25 a la información codificada para obtener los componentes espectrales que representan el contenido espectral de una señal fuente, y aplica la batería de filtros de síntesis 27 a los componentes espectrales para generar una señal de salida a lo largo del trayecto 29, que es una réplica de la señal fuente pero puede no ser una réplica exacta. La batería de filtros de síntesis 27 puede ser aplicada de diversas formas que son complementarias con la aplicación de la batería de filtros de análisis 3.
En esta exposición los términos tales como “decodificador” y “decodificación” no pretenden implicar cualquier tipo particular de procesamiento de información. El decodificador 25 puede llevar a cabo esencialmente cualquier tipo de procesamiento que sea necesario o que se desee. En una aplicación que es inversa de un proceso de codificación antes descrito los componentes espectrales cuantificados son decodificados en componentes espectrales descuantificados. En otra aplicación muchos canales de los componentes espectrales son sintetizados a partir de una representación compuesta de los componentes espectrales. En otra aplicación más el decodificador 25 sintetiza las partes que faltan de una anchura de banda de la señal a partir de la información espectral envolvente. Ningún tipo particular de decodificación es importante para el presente invento.
4. Medidas de magnitud y fase
En una aplicación por una Transformación de Fourier Discreta Impar (ODFT) la batería de filtros de análisis 3 genera unos coeficientes de valores complejos o “componentes espectrales” con partes real e imaginaria que pueden ser expresadas en un espacio bidimensional. Esta transformación puede ser expresada como:
N -1 [271): ODFT ()=Nx(n).exp[-j (k + (n+n0 ): (1)
Xk n=0 N 2
que puede ser separada en partes real e imaginaria
()=ReX (k)+j.Im
X ODFT k ODFT X ODFT (k) (2)
y escrita de nuevo como
N -1 N -1
(+ (+
X ODFT (k) =Nx(n).cos[[27 k 1) (n +n0)::-j Nx(n).sen[[27 k 1) (n +n0):: (3) n=0 N 2 n=0 N 2
en donde XODFT(k) = coeficiente ODFT del componente espectral k, x(n) = amplitud de la señal fuente en el instante n; Re[X] = parte real de X; y Im[X] = parte imaginaria de X.
La magnitud y la fase de cada componente espectral k pueden calcularse de la siguiente forma:
MagX ODFT (k)=
X ODFT (k)
= ReX (k)2 +ImX (k)2 (4)
ODFT ODFT
[ImX ODFT (k):
PhsX ODTFT (k)=arctg[:(5)
ReX ODFT (k)
en donde
Mag[X] = magnitud de X; y Phs[X] = fase de X.
Muchas aplicaciones de codificación ponen en práctica la batería de filtros de análisis 3 aplicando la Transformación de Coseno Discreta Modificada (MDCT) discutida anteriormente a los segmentos solapados de la señal fuente que son modulados por una función ventana de análisis. Esta transformación puede ser expresada como:
N -1 [271 :X MDCT ()k =Nx(n).cos[(k + )(n+n0 ): (6) n=0 N 2
en donde XMDCT(k) = coeficiente MDCT del componente espectral k. Se puede ver que los componentes espectrales que son generados por la MDCT son equivalentes a la parte real de los coeficientes ODFT.
XMDCT(k) = Re[XODCT(k)] (7)
Una particular Transformación de Seno Discreta Modificada (MDST) que genera coeficientes que representan componentes espectrales en cuadratura con los componentes espectrales representados por coeficientes de la MDCT pueden ser expresados como:
N -1 [27( 1 ):X MDST ()k =Nx(n).sen[k +(n+n0 ): (8)
n=0 N 2
en donde XMDST(k) = coeficiente MDST del componente espectral k. Se puede ver que los componentes espectrales que son generados por la MDST son equivalentes a la parte imaginaria negativa de los coeficientes ODFT.
XMDST(k) = -Im[XODFT(k)] (9)
Las medidas exactas de la magnitud y de la fase no pueden ser calculadas directamente a partir de los coeficientes MDCT pero pueden ser calculadas directamente a partir de una combinación de coeficientes MDCT y MDST, los cuales pueden verse sustituyendo las ecuaciones 7 y 9 en las ecuaciones 4 y 5:
Mag X (k) = X 2(k) +X 2(k) (10)
ODFT MDCT MDST
[-X MDST (k):Phs X ODFT (k) =arctg[: (11)X MDCT (k)
El trabajo de Princen antes mencionado indica que un uso correcto de la MDCT requiere la aplicación de una función ventana de análisis que satisface ciertos criterios de diseño. Las expresiones de las ecuaciones de transformación en esta sección de la discusión omiten una referencia explícita a cualquier función ventana de análisis, lo que implica una función ventana de análisis rectangular de que no satisface estos criterios. Esto no afecta a la validez de las expresiones 10 y 11.
Las aplicaciones del presente invento que se describen a continuación obtienen medidas de magnitud y fase del componente espectral a partir de los coeficientes MDCT y de los coeficientes MDST derivados de los coeficientes MDCT. Estas aplicaciones se describen a continuación después de una discusión de la base matemática subyacente.
B. Derivación del marco matemático Esta sección discute la derivación de una expresión analítica para calcular los coeficientes MDST exactos a partir de los coeficientes MDCT. Esta expresión se muestra más adelante en las ecuaciones 41a y 41b. También se discuten las derivaciones de expresiones analíticas más sencillas de dos funciones de ventana específicas. Las consideraciones de las aplicaciones se presentan después de una discusión de las derivaciones.
Una aplicación del presente invento discutida más adelante se deriva de un proceso de cálculo de los coeficientes MDST exactos a partir de los coeficientes MDCT. Este proceso es equivalente a otro proceso que aplica una batería de filtros de síntesis de Transformación de Coseno Discreta Modificada Inversa (IMDCT) a los bloques de coeficientes MDCT para generar segmentos en ventana de muestras de dominio temporal, solapa-añade los segmentos en ventana de muestras para reconstruir una réplica de la señal fuente original, y aplica una batería de filtros de análisis MDST a un segmento de la señal recuperada para generar los coeficientes MDST.
1. Función ventana arbitraria
Los coeficientes MDST exactos no pueden ser calculados a partir de un único segmento de muestras en ventana que es recuperada aplicando la batería de filtros de síntesis IMDCT a un único bloque de coeficientes MDCT debido a que el segmento es modulado por una función ventana de análisis y debido a que las muestras recuperadas contienen solapes del dominio temporal. Los coeficientes MDST exactos pueden ser calculados solamente con el conocimiento adicional de los coeficientes MDCT de los segmentos precedente y posterior. Por ejemplo, en el caso en que los segmentos se solapen entre sí en una mitad de la longitud del segmento los efectos en ventana y de solape del dominio temporal de un segmento II dado pueden ser anuladas aplicando la batería de filtros de síntesis y la función ventana de síntesis asociada a tres bloques de coeficientes MDCT que representan tres segmentos solapados consecutivos de la señal fuente, denominados segmento I, segmento II y segmento III. Cada segmento se solapa con un segmento contiguo una cantidad igual a la mitad de la longitud del segmento. Los efectos en ventana y de solape del dominio temporal en la primera mitad del segmento segundo se anulan por un solape-adición con la segunda mitad del segmento I, y estos efectos en la segunda mitad del segmento II se anulan en una adición de solapamiento con la primera mitad del segmento III.
La expresión que calcula los coeficientes MDST a partir de los coeficientes MDCT depende del número de segmentos de la señal fuente, de la estructura y longitud de solape de estos segmentos, y de la elección de las funciones ventana de análisis y de síntesis. Ninguna de estas características es importante en principio para el presente invento. Por facilidad de ilustración, sin embargo, se ha supuesto en los ejemplos discutidos más adelante que los tres segmentos tienen la misma longitud N, la cual es par, y se solapan entre sí en una cantidad igual a la mitad de la longitud del segmento, que las funciones ventana de análisis y de síntesis son idénticas entre sí, que las mismas funciones ventana se aplican a todos los segmentos de la señal fuente, y que las funciones ventana son tales que sus propiedades de adición de solape satisfacen el siguiente criterio, el cual es requerido para la perfecta reconstrucción de la señal fuente como se ha explicado en el trabajo de Princen.
2 N 2 [ N :
w(r) + w(r + ) = 1 para r 0, -1
[:
en donde w(r) = función ventana de análisis y de síntesis; y N = longitud de cada segmento de señal fuente.
Los coeficientes MDCT Xi de la señal fuente x(n) en cada uno de los segmentos i puede expresarse como:
N -1 ( 27 1 )
XI ( p) =Nw(n)x(n)cos ( p + )(n + n0 ) (12) n=0 N 2
N -1 N ( 27 1 )
X ( p) =Nw(n)x(n + )cos ( p + )(n + n ) (13)
II 2 N 20
n=0
N -1 ( 27 1 )
X ( p) =Nw(n)x(n + N)cos ( p + )(n + n ) (14)
III 0
n=0 N 2
Las muestras x que de dominio temporal en ventana que se obtienen de una aplicación de la batería de filtros de síntesis IMDCT a cada bloque de coeficientes MDCT puede ser expresada como:
2w(r) N -1 [27 1 :
xI (r) =N XI ( p)cos ( p + )(r + n0 ) (15)
[:
Np=0 N 2
2w(r) N -1 [27 1 :
xII (r) =N X II ( p)cos ( p + )(r + n0 ) (16)
[:
Np=0 N 2
x
III
(r)
=
2w(r)
X
III
( p)cos
(
p
+
1
)(
r
+
n
)
::
(17)
N 1 0
-
N
[[
N
2
N
p
=
Las muestras s(r) de la señal fuente del segmento II se reconstruyen solapando y añadiendo los tres segmentos en ventana como se ha descrito anteriormente, por lo tanto eliminando el solape del dominio temporal de la señal fuente
x. Esto puede expresarse como:
Se puede calcular un bloque de coeficientes MDST S(k) para el segmento II aplicando una batería de filtros de análisis a las muestras del dominio temporal en el segmento II reconstruido, que pueden ser expresadas como:
N 1
-
N
N
1
[[
::
S(k)
k
w(r) s(r) sen
(
)(
)
(19)
+
+
r
n
=
2
r
=
Usando la expresión 18 para sustituir s(r), la expresión 19 puede escribirse de nuevo como:
N
-
[[
N
N
2
1
N 0
w(r)
[[
x
I
::
::
+
S(k)
k
(
r
)
(r)
(
)(
n
0)
+
+
+
+
x
sen
r
=
II
2
r
=
N
-
N
N
2
)
1
w(r)
[[
x
II
sen
[[
::
)
::
N
+
N
k
(r)
(
r
(
)(
(20)
+
+
+
x
-
r
n
III
2
r
=
Esta ecuación puede ser escrita de nuevo en relación con los coeficientes MDCT usando las expresiones 15-17 para 25 sustituir las muestras del dominio temporal:
N
2w(r )
[[[[[
: : : ::
N
+
N
-
N
-
1 N
N
N
1
N
1
[[
::
N
S(k)
X
k
w(r)
( p) cos(
(
)(
))
(
)(
)
+
+
+
+
+
+
p
r
n
sen
r
n
=
I
0 0
2
2
2
=
=
r p
N
-
[[
N
-
1 N
N
N
2w(r)
N
1
1
::
[[
::
N
X
k
w(r)
( p) cos(
(
)(
))
(
)(
)
+
+
+
+
+
n
+
p
r
n
sen
r
II
0 0
2
2
=
=
r p
N
[[
N
-
1 N
N
N
2w(r)
N
1
1
::
-
[[
::
N
X
k
w(r)
( p) cos(
(
)(
))
(
)(
)
+
+
+
+
+
+
p
r
n
sen
r
n
II
0 0
2
2
N
=
pr
=
N
[[[[[
: : : ::
N
-
N
N
N
N
2
1
1
sen
[[
)
::
N
N
X
k
w(r)
( p) cos(
(
)(
n
))
(
)(
(21)
+
+
+
+
+
p
r
-
r
n
III
N
2
2
N p
=
r
=
-
-
2w(r )1
El resto de esta sección de la exposición muestra cómo esta ecuación puede simplificarse como se muestra más adelante en las ecuaciones 41a y 41b.
Usando la identidad trigonométrica sena.cos� = 1/2 [sen(a+�)l+[sen(a-�)l para reunir términos y cambiar el orden de
la suma, la expresión 21 puede escribirse de nuevo como:
N
-
1
N -12
1 N [27 127 127 1 N :
S(k) =N XI ( p) Nw(r)w(r + ).sen[(k + )(r + n0) + ( p + )(r + n0) + ( p + ) :+Np=0 r=02 N 2 N 2 N 22
N
-
1
1 N -12 N [27 127 127 1 N :
5 + N XI ( p) N w(r)w(r + ).sen[(k + )(r + n0) -( p + )(r + n0) -( p + ) :+ Np=0 r =02 N 2 N 2 N 22
N
1 N -12 -1
+ [27:
N X II ( p) Nw(r)w(r).sen[(k + p +1)(r + n0):+ Np=0 r=0 N
N
1 N 2 -1
+ -1 [27:
N X ( p) Nw(r)w(r).sen[(k -p)(r + n0):+
Np=0 II r =0 N 1 N -1 N -1
+ [27:
N X II ( p) Nw(r)w(r).sen[(k + p +1)(r + n0):+ Np=0 NN
r =
2 1 N -1 N -1
+ [27:
N X II ( p) Nw(r)w(r).sen[(k -p)(r + n0):+ Np=0 r = NN 2 -1 N -1
1 N N [27 127 127 1 N :
10 + N X III ( p) Nw(r)w(r -).sen[(k + )(r + n0) + ( p + )(r + n0) -( p + ) :+Np=0 N 2 N 2 N 2 N 22
r=
2 N -1 N -1
1 N [27 127 127 1 N :
N X ( p) Nw(r)w(r -).sen (k + )(r + n ) -( p + )(r + n ) + ( p + ) (22)
III [00 :
Np=0 N 2 N 2 N 2 N 22
r =
Esta expresión puede simplificarse uniendo los pares de términos que son iguales entre sí. Los términos primero y segundo son iguales entre sí. Los términos tercero y cuarto son iguales entre sí y los términos sétimo y octavo son 15 iguales entre sí. Por ejemplo, la igualdad entre los términos tercero y cuarto puede mostrarse demostrando el siguiente lema:
N 1 N -12 -1
N [27:
N X II ( p) Nw(r)w(r + ).sen (k + p +1)(r + n0) =
[ :
Np=0 r =02 N
N
-
1
1 N -12 [27:
N X II ( p) Nw(r)w(r).sen[(k -p)(r + n0): (23) Np=0 r =0 N
20 Este lema puede ser demostrado escribiendo de nuevo los miembros izquierdo y derecho de la ecuación 23 como funciones de p de la siguiente forma:
N
-
1
N -12 N -1
1 [27: 1
N X ( p) Nw(r)w(r).sen[(k + p +1)(r + n ):= N F( p) (24a) Np=0 II r =0 N 0 Np=0 N
-
1
N -12 N -1
1 [27: 1
N X II ( p) Nw(r)w(r).sen (k -p)(r + n0) =NG( p) (24b)
[ :
Np=0 r =0 N Np=0
en donde
N
-
1
2 [27 :
F( p) = X II ( p)Nw(r)w(r) sen [(k + p +1)(r + n0): (25a) r=0 N
N
-
1
2 [27:
G( p) = X II ( p)Nw(r)w(r) sen [(k -p)(r + n0): (25b) r =0 N
La expresión de G como función de (p) puede ser vuelta a escribir como función de (N-1-p) de la siguiente forma:
N
-
1
2 [27 :
G(N -1-p) = X II (N -1-p)Nw(r)w(r) sen [(k -(N -1-p))(r + n0): (26) r=0 N
Se sabe que los coeficientes MDCT son simétricos irregulares, por lo tanto:
[ N :
X II (N -1-p) =-X II ( p) para p [0, -1:
Escribiendo de nuevo (k-(N-1-p)) como (k+1+p)-N puede verse que (k-(N-1-p)).(r+n0) = (k+1+p)-N(r+n0). Estas dos igualdades permiten volver a escribir la expresión 26 como:
N
-
1
2 [27 :
G(N -1 -p) =-X ( p)Nw(r)w(r) sen (k + p + 1)(r + n ) -27 (r + n ) (27)
II [00 : r=0 N
Con referencia al trabajo de Princen el valor de n0 es 1/2(N/2+1), el cual está a medio camino entre dos enteros. Debido a que r es un entero se puede ver que el término final 2n( r+n0) en el sumando de la expresión 27 es igual a un entero impar múltiplo de n, por 1o que 1a expresión 27 puede escribirse de nuevo como:
N
-
1
2 [27 :
G(N -1-p) =+ X II ( p)Nw(r)w(r) sen (k + p +1)(r + n0) = F( p) (28)
[ :
r=0 N
que prueba el lema mostrado en la ecuación 23. La igualdad entre los otros pares de términos en la ecuación 22 pueden ser mostrados de una forma similar.
Omitiendo los términos primero, tercero, quinto y séptimo en la expresión 22 y doblando los términos segundo, cuarto, sexto y octavo, la ecuación 22 puede escribirse de nuevo de la siguiente forma después de simplificar los términos segundo y octavo:
N
-
1
N -12
2 N [27 7:
S(k) =N XI ( p) Nw(r)w(r + ).sen[(k -p)(r + n0) -7p -:+ Np=0 r =02 N 2
N
2 N 2 -1
-
1 [27:
+ N X II ( p) Nw(r)w(r).sen[(k -p)(r + n0):+ Np=0 r=0 N -1 N -1
2 N [27:
+ N X II ( p) Nw(r)w(r).sen[(k -p)(r + n0):+ Np=0 r = NN 2 N -1 N -1
2 N [27 7:
+ N X III ( p) Nw(r)w(r -).sen[(k -p)(r + n0) +7p +: (29)Np=0 N 2 N 2
r =
Usando las siguientes entidades:
sen(a6np) = (-1)p sen a
sen(a+n/2) = + cos a (30)
sen(a-n/2) = - cos a
la expresión 29 puede escribirse de nuevo como:
N
-
1
N -12
2 p+1 N [27:
S(k) =N(-1) XI ( p) Nw(r)w(r + ).cos (k -p)(r + n0) +
[:
Np=0 r=02 N
N
-
1
2 N -12 [27:
+ N X II ( p) Nw(r)w(r).sen[(k -p)(r + n0):+ Np=0 r =0 N 2 N -1 N -1
+ [27:
N X II ( p) Nw(r)w(r).sen[(k -p)(r + n0):+ Np=0 NN
r =
2 N -1 N -1
+ 2 pN [27:
N(-1) X ( p) Nw(r)w(r -).cos (k -p)(r + n ) (31)
III [0 :
Np=0 N 2 N
r =
Las sumas internas de los términos tercero y cuarto se cambian de modo que sus límites de suma van de r = 0 a r = (N/2 -1) realizando las siguientes sustituciones:
( 27 N ) k -p ( 27)
sen (k -p)(r + n + ) = (-1) sen (k -p)(r + n )
N 02 N 0
( 27 N ) k-p ( 27)
10 cos(k -p)(r + n0 + ) = (-1)cos (k -p)(r + n0)
N 2 N
Esto permite que la ecuación 31 sea escrita de nuevo como:
N
-
1
N -12
2 p+1 N [27:
S(k) =N(-1) XI ( p) Nw(r)w(r + ).cos[(k -p)(r + n0):+ Np=0 r=02 N
N
-
1
2 N -12 [27:
+ N X II ( p) Nw(r)w(r).sen[(k -p)(r + n0):+ Np=0 r =0 N
N 2 N -12 -1
k -p NN [27:
15 + N(-1) X II ( p) Nw(r + )w(r + ).sen[(k -p)(r + n0):+Np=0 r =02 2 N
N
-
1
N -12
+ 2 pk -pN [27:
N(-1) (-1) X III ( p) Nw(r + )w(r).cos[(k -p)(r + n0): (32)Np=0 r=02 N
La ecuación 32 puede ser simplificada usando la limitación impuesta en la función ventana mencionada anteriormente que es necesaria para la perfecta reconstrucción de la señal fuente. Esta limitación es:
2 ( N )2
w(r) + wr += 1.
Con esta limitación la ecuación 31 puede ser simplificada, quedando de la siguiente forma:
N
-
1
N -12
2 p+1 kN [27:
25 S(k) =N (-1) XI ( p) + (-1) X III ( p) Nw(r)w(r + ) cos[(k -p)(r + n0):+Np=0 r=02 N
N 2 N -12 -1
+ 2 [27:
N X II ( p) Nw (r) sen[(k -p)(r + n0):+ Np=0 r =0 N
N
-
1
N -12 2(k -p)2 [27:
+ N(-1) X II ( p) N(1-w )(r).sen (k -p)(r + n0 ) (33)
[:
Np=0 r=0 N
Agrupando términos, la ecuación 33 puede ser escrita de nuevo como:
N
2 N -1 p+1 k 2 -1 N [27:
S(k) =N (-1) XI ( p) + (-1) X III ( p) Nw(r)w(r + ) cos[(k -p)(r + n0):+
Np=0 r=02 N
N
-
1 2 N -1(k -p) 22 [27:
+
N X ( p) -(-1) X ( p) Nw (r) sen[(k -p)(r + n0):+
II II
Np=0 r=0 N
N
+ 2 N -1(k -p)2 -1 [27:
N(-1) X II ( p) N.sen (k -p)(r + n0 ) (34)
[ :
Np=0 r=0 N
5 La ecuación 34 puede ser simplificada reconociendo que la suma interna del tercer término igual a cero. Esto puede mostrarse demostrando dos lemas. Un lema postula la siguiente igualdad:
N 7q
-
1
sen
2 ( 27 )( 27qa 7q 7q ) 2
Ia,q (r) =Nsen (q)(r + a) = sen +-(35) r=0 NN 2 N 7q
sen N
Esta igualdad puede ser demostrada escribiendo de nuevo el sumando en forma exponencial, reordenando, simplificando y uniendo los términos de la siguiente forma:
N
-
1
21 [( 27q )( 27q ):
10 Ia,q (r) =N [exp + j (r + a) -exp -j (r + a) : r=02iN N
N
-
1
1 (27qa ) 2 (27qr )
= exp + j Nexp + j 2i Nr=0 N
N
-
1
1 (27qa ) 2 (27qr )
- exp -j Nexp -j 2i Nr=0 N
[(27qN ):
1-exp + j
[ :
1 (27qa ) N 2
= exp + j [:
2iN [(27q ):
1-exp + j
[ :
N
[(27qN ):
1-exp -j
[ :
1 (27qa ) N 2
-
exp -j [:
2iN [(27q ):
1-exp -j
[ :
N
( 7q )[ (7q ) (7q ):
exp + j exp -j -exp + j
[ :
1 (27qa ) 22 2
15 = exp + j [:2iN (7q )[(7q ) (7q ):
exp + j exp -j -exp + j
[ :
NN N
(7q )[ (7q ) (7q ):
exp -j exp + j -exp -j
[ :
1 (27qa ) 22 2
-exp -j [ :
2iN (7q )[(7q ) (7q ):
exp -j exp + j -exp -j
[ :
NN N
7q
sen
1 ( 27qa 7q 7q ) 2
= exp + j + j -j -(36)
2iN 2 N 7q
sen
N 7q
sen
1 ( 27qa 7q 7q ) 2
-exp -j -j + j
2iN 2 N 7q
sen
N
7q
sen
( 27qa 7q 7q ) 2
I(r) = sen +
a,q
N 2 N 7q
sen N
El otro lema postula:
N
-
1
2 [27: 1 ( N )
Ia,q (r) =Nsen [(k -p)(r + n0):= 0 para n0 =+1 r=0 N 22
Esto puede ser demostrado sustituyendo n0 por a en la expresión 35 para obtener lo siguiente:
( N )
+1
7q
27q(2 ) sen
7q 7q
In0,q (r) = sen 2 +-2 =
N 2 N 7q
sen N
7q
sen
(7qN 7q 7q ) 2
= sen ( +1) +-=
N 22 N 7q
sen
N 7q (7q 7q 7q 7q ) sen 2
= sen ++-=
2 N 2 N 7q
sen
N 7q
sen
= sen(7q) = 0 para q entero (37)
7q
sen N
Sustituyendo (k-p) por q en la expresión 35 y usando los dos lemas precedentes, la suma interna del tercer término en la ecuación 34 puede ser mostrado que es igual a cero de la siguiente forma:
NN
-1 -1
[7 : 2 [27: 1 ( N )
Nsen q(r + n0): =Nsen (k -p)(r + n ):= 0 para n0 =+1
[[0
r=0 Nr=0 N 22
Usando esta igualdad la ecuación 34 puede ser simplificada de la siguiente forma:
N
-
1
N -12
2 p+1 kN [27:
S(k) =N (-1) XI ( p) + (-1) X III ( p) N w(r)w(r + ) cos[(k -p)(r + n ) Np=0 r =02 N 0 :
N
-
1
+ 2 N -12 [27:
k -p 2
N(1-(-1) )X II ( p) Nw (r).sen[(k -p)(r + n0): (38) Np=0 r =0 N
Los coeficientes S(k) de MDST de una señal de valor real son simétricos de acuerdo con la expresión
S(k) = S(N -1-k), para k 0, N -1
Usando esta propiedad todos los coeficientes de número par pueden ser expresados como
[ N :
S(2v) = S(N -1-2v) = S(N -2(v+1) +1), para v 0, -1
[:
Debido a que N y 2(v+1) son ambos números pares la cantidad ( N–2(v+1)+1) es un número impar. A partir de esto se puede ver que los coeficientes numerados pares pueden expresarse con relación a coeficientes numerados impares. Usando esta propiedad de los coeficientes la ecuación 38 puede ser escrita de nuevo de la siguiente forma:
N
-
1
N -12
2 p+1 N [27:
S(2v ) =N (-1) XI ( p) + X III ( p) N w(r)w(r + ) cos[(2v-p)(r + n ) Np=0 r =02 N 0 :
N 2 N -12 -1
+ p+12 [27:
N 1-(-1) X II ( p) Nw (r) sen[(2v-p)(r + n ) Np=0 r=0 N 0 :
[ N :
en donde k = 2v , v 0, -1 (39)
[:
El segundo término en esta ecuación es igual a cero para todos los valores pares de p. El segundo término necesita
[ N :
ser evaluado solamente para valores impares de p, o para p = 2I + 1 para I 0, -1
[:
N
-
1
N -12
2 p+1 N [27:
S(2v) =N (-1) X ( p) + X ( p) N w(r)w(r + ) cos[(2v-p)(r + n ):
I III 0Np=0 r =02 N
NN
-1 -1
+ 42 [27:
N X II (2I +1) Nw (r) sen (2v-(2I +1))(r + n0)
[:
Np=0 r =0 N
[ N :
en donde v0, -1 (40)
[:
La ecuación 40 puede ser escrita de nuevo como una suma de dos operaciones de convolución modificadas de dos funciones hI,III y hII con dos conjuntos de componentes espectrales intermedios mI,III y mII que son derivados de los coeficientes XI, XII y XIII para tres segmentos de la señal fuente como sigue:
N
-
1
N -12 S(2v) = 2 NmI ,III ( p)hI ,III (2v-p) + 4 NmII (2I +1) hII (2v-(2I +1)) (41a)Np=0 Np=0
en donde mI,III (T) = [(-1)T
+1XI(T)+XIII(T)] mII(T) = XII(T)
N
-
1
2 N [27:
hI ,III (r ) =Nw(r)w(r)(r + ) cos[(r)(r + n0): p=02 N
N
-
1
2 [27:
hII (r) =Nw2(r) sen[(r)(r + n0): p=0 N
[ N :
v 0, -1
[:
S(2v+1) = S(N -2(1+v )) (41b)
Los resultados de las operaciones de convolución modificadas dependen de las propiedades de las funciones hI,III y hII, que son respuestas de impulso de filtros hipotéticos que están relacionados con los efectos combinados de la batería de filtros de síntesis de IMDCT, con la subsiguiente batería de filtros de análisis de MDST, y con las funciones ventana de análisis y de síntesis. Las convoluciones modificadas necesitan ser evaluadas solamente para los enteros pares.
Cada una de las respuestas de impulso es simétrica. Se puede ver a partir de la inspección que hI,III(T)=hI,III(-T) y hII(T)=-hII(-T). Estas propiedades de asimetría pueden ser aprovechadas en aplicaciones digitales prácticas para reducir la cantidad de memoria necesaria para almacenar una representación de cada respuesta de impulso. Una comprensión de cómo las propiedades de simetría de las respuestas de impulso interactúan con las propiedades de simetría de los componentes espectrales intermedios mI,III y mII puede también ser aprovechada en aplicaciones prácticas para reducir la complejidad de los cálculos.
Las respuestas de impulso hI,III(T) y hII(T) pueden calcularse a partir de las sumas mostradas anteriormente; no obstante, puede ser posible simplificar estos cálculos derivando expresiones analíticas más simples para las respuestas de impulso. Debido a que las respuestas de impulso dependen de la función ventana w(r) la derivación de expresiones analíticas más sencillas requiere especificaciones adicionales para la función ventana. Un ejemplo de derivaciones de expresiones analíticas más sencillas de las respuestas de impulso para dos funciones ventana específicas, las funciones ventana rectangular y de seno se discuten más adelante.
2. Función ventana rectangular La función ventana rectangular no se usa a menudo en aplicaciones de codificación debido a que tiene unas propiedades de selectividad de frecuencia relativamente bajas; sin embargo, su simplicidad reduce la complejidad del análisis necesario para derivar una aplicación específica. Para esta derivación la función ventana se usa
w(r) = para r 0, N -1 2
Para esta función ventana particular el segundo miembro de la ecuación 41 es igual a cero. El cálculo de los coeficientes MDST no depende de los coeficientes MDCT del segundo segmento. Como consecuencia, la ecuación 41a puede ser escrita de nuevo de la siguiente forma:
2 N -1 S(2v) =NmI ,III ( p)hI ,III (2v-p) (42)
Np=0
en donde
mI,III (T) = [(-1)T+1XI(T)+XIII(T)]
N
-
1
12 [27:
hI ,III (r) =N cos[(r)(r + n0):
2 p=0 N
[ N :
0, -1
v[:
Si N está limitado a tener un valor que es un múltiplo de cuatro, esta ecuación puede ser simplificada adicionalmente usando otro lema que postula la siguiente igualdad:
Esto puede ser demostrado de la siguiente forma
NN
-
-
7
2
::
N 0
N 0
[[
[[
::
I
(q)(
)
(q)(
r
+
)
+
+
r
n
sen
n
=
cos
=
N
N
r
=
r
=
NN
-
1 N
-
1 N 0
[[
N
(
)
[[
N
(q)(
r
+
n
+
N
4
q
)
::
N
N
::
(q)(
)
(q)
(44)
+
+
sen
r
n
sen
=
=
4
q
r
=
r
=
Usando el lema mostrado en la ecuación 35 con
N
+
a
=
n
,
4q
la expresión 44 puede escribirse de nuevo de la siguiente forma:
+
N 2q
)
I
=
sen
[[[[[
2nq(n
q
:::::
sen
qq 2 N
(45)
+
-
q
N
sen
la cual puede ser simplificada para obtener la siguiente expresión:
q
sen
I
-
( 1)
q
Si q es un entero múltiplo de N tal q = mN, entonces el numerador y el denominado del cociente en la expresión 46 son ambos igual a cero, haciendo que el valor del cociente sea indeterminado. Se puede utilizar la regla de L’Hôpital para simplificar la expresión adicionalmente. Diferenciando el numerador y el denominado con respecto a q y sustituyendo q = mN se obtiene la expresión:
(46)
q
=
sen
N
mnN
m
N cos 2cos(
)
Debido a que N es un entero múltiplo de cuatro, el numerador es siempre igual a N y el denominador es igual a 2(1)m = 2(-1)q/N . Esto es la prueba del lema expresado por la ecuación 43.
Esta igualdad puede ser usada para obtener expresiones para la respuesta de impulso hI,III.
Se han considerado diferentes casos para evaluar la respuesta hI,III(T). Si T es un entero múltiplo de N tal como T = mN entonces hI,III(T) = (-1)m . N/4. La respuesta es igual a cero para los valores pares de r que no sean un entero múltiplo de N debido a que el numerador del cociente en la ecuación 46 es igual a cero. El valor de la respuesta de impulso hI,III para los valores impares de T puede ser visto por una inspección. La respuesta de impulso puede ser
5 expresada de la siguiente forma:
mN
hI ,III (r ) = (-1) para r= mN
hI ,III (r ) = 0 para r par, r* 0 (47)
r+1
1(-1) 3
hI ,III (r ) = (48)
2 7r
sen N
10 La respuesta de impulso hI,III para una función ventana rectangular y N=128 está ilustrado en la Figura 6.
Sustituyendo estas expresiones en la ecuación 42, las ecuaciones 41a y 41b puede escribirse de nuevo como:
Usando las ecuaciones 49a y 49b, los coeficientes MDST del segmento II pueden ser calculados a partir de los coeficientes MDCT de los segmentos I y III suponiendo el uso de una función ventana rectangular. La complejidad de cálculo de esta ecuación puede ser reducida aprovechando el hecho de que la respuesta de impulso hI,III(T) es
25 igual a cero para muchos valores impares de T.
3. Función ventana de seno
La función ventana de seno tiene unas mejores propiedades de selectividad de frecuencia que la función ventana
30 rectangular y se usa en algunos sistemas de codificación prácticos. La siguiente derivación usa una función ventana de seno definida por la expresión
(7 1 )
w(r) = sen (r + ) (50)
N 2
Una expresión simplificada para la respuesta de impulso hI,III se puede derivar usando un lema que postula lo siguiente:
Este lema puede demostrarse simplificando primero la expresión de w(r)w(r)(r+N/2) de la siguiente forma:
(7 1 ) (7 N 1 ) (7 1 ) (7 1 7)
sen (r + ) sen (r ++ ) = sen (r + ) sen (r + ) + )
N 2 N 22 N 2 N 22
(7 1 ) (7 1 ) 1 ( 27 1 )
= sen (r + ) cos (r + ) = sen (r + ) (52)
N 2 N 22 N 2 10
Sustituyendo esta expresión simplificada en la ecuación 51 se obtiene lo siguiente:
N
-
1
12 [27 1 :[27:
I(r ) = sen (r + ) cos (r )(r + n ) (53)
N[:[0 :
2 r=0 N 2 N
Utilizando la siguiente identidad trigonométrica
senu cos v = sen(u + v) + sen(u -v) (54)
la ecuación 53 puede escribirse de nuevo de la siguiente forma:
NN
-1 -1
12 [27 127: 12 [27 127:
I(r ) =Nsen (r + ) + (r )(r + n0) +Nsen (r + ) -(r )( r -r n0 ) (55)
[:[:
4 r=0 N 2 N 4 r =0 N 2 N
NN
-1 -1
12 [27 1 : 12 [27 1 :
I(r ) =Nsen [((r + +r r +r n0):+ Nsen[(r + -r r -r n0): 4 r=0 N 24 r=0 N 2
NN
-1 -1
12 [27 1 : 12 [27 1 :
25 I(r ) = sen ((r+1)r + (r n + )) sen ((-r +1)r -(r n -))
N[0 :+N [0 :
4 r=0 N 24 r=0 N 2
N [( 1 ): N [( 1 ):
1 r+ -1 n
-
n r
2 [0 : 2 [0 :
127 127
I(r ) =Nsen [(r+1) r + 2 :+ Nsen[(-r +1) r -2 : (56)
4 r=0 N r+14 r=0 N -r +1
[:[: [:[:
La ecuación 55 puede ser simplificada sustituyendo en ambos términos de J(T) de acuerdo con la ecuación 35,
rn + rn +
02 02
haciendo q = (T+1) y a= en el primer miembro, y haciendo q = (T+1) y a= en el segundo (r+1) (r+1)
5 miembro. Esto da lo siguiente:
sen (r+1)
1 ( 27 1 7 7) 2
I(r ) = sen (r n0 + ) + (r+1) -(r+1) +
4 N 22 N 7
sen (r+1)
N
sen (-r +1)
1 ( 27 1 7 7) 2
+ sen (-r n0 + ) + (-r +1) -(-r +1)
4 N 22 N 7
sen (-r +1)
N
sen (r+1)
1 (7 N 7 7) 2
I(r ) = sen (r )( +1) + (r+1) -(r ) +
4 N 22 N 7
sen (r+1)
N
sen (-r +1)
1 (7 N 7 7) 2
+ sen (-r )( +1) + (-r +1) -(-r )
4 N 22 N 7
sen (-r +1)
N
sen (r+1) sen (-r +1)
1 (77 ) 21 (77 ) 2
10 I(r ) = (r ) + (r+1) + (-r ) + (-r +1)
42 2 7 42 2 7
sen (r+1) sen (-r +1)
NN
sen (r+1) sen (-r +1)
1 ( 7) 21 ( 7) 2
I(r ) = sen 7 (r ) ++ sen 7 (-r ) + (57)
42 7 42 7
sen (r+1) sen (-r +1)
NN
7 -7
cos r cos r I(r ) = 1 cos(7r ). 2 + 1 cos(-7r ) 2
4 7 4 -7
sen (r+1) sen (r+1)
NN
r cos (r ) -r cos (-r )
(-1) 2(-1) 2
I(r ) = . +
4 7 4 7
sen (r+1) sen (-r +1)
NN
[ :
r
(-1) 7[1 1 :
I(r ) = .cos r . [+ :
42 77
[sen (r+1) sen (-r +1):
[ NN :
27[ :
r
(-1) 7[1 1 :
I(r ) = .cos r . [+ : , r par
42 77
[sen (r+1) sen (-r +1):
[NN : I(r ) = 0, r complejo (58)
5 La Ecuación 58 es válida a menos que el denominador de cualquiera de los dos cocientes sea igual a cero. Estos casos especiales pueden ser analizados inspeccionando en la ecuación 57 qué singularidades se producen para T=mN+1 y T=mN-1, en las que m es un entero. Lo siguiente supone que N es un entero múltiplo de cuatro.
Para T=mN+1 la ecuación 57 puede ser escrita de nuevo de la siguiente forma:
7 7
sen (mN + 2) sen (-mN)
1 ( 7) 21 ( 7) 2
I(mN +1) = sen 7 (mN +1) + + sen -7 (mN +1) +
42 7 4 2 7
sen (mN + 2) sen (-mN)
NN -mN7
sen
1 ( 7) 2
= 0 + sen -7 (mN
4 2 -mN7
sen
N -mN7
sen
1 2
= (59)
4 -mN7
sen N
15 El valor del cociente es indeterminado debido a que el numerador y el denominador son ambos igual a cero. La regla de L’Hôpital puede usarse para determinar su valor. Diferenciando el numerador y el denominador con respecto a m se obtiene lo siguiente:
N7-mN7
1 -2 cos 2 NmI(mN +1) =-=-(-1) (60)4 -7 cos-m7 8
Para T=mN-1 la ecuación 57 puede escribirse de nuevo de la siguiente forma:
7 7
sen (mN) sen (-mN)
1 ( 7) 21 ( 7) 2
I(mN -1) = sen 7 (mN -1) + + sen -7 (mN -1) +
42 7 4 2 7
sen (mN) sen (-mN)
NN mN7 1 ( 7) sen 2
25 I(mN -1) = sen 7 (mN -+ 0 (61)
4 2 mN7
sen
N
El valor del cociente en esta ecuación es indeterminado debido a que el numerador y el denominador son ambos igual a cero. La regla de L’Hôpital puede usarse para determinar su valor. Diferenciando el numerador y el denominador con respecto a m se obtiene lo siguiente:
7n 7mN
1 cos N
22 m
I(mN -1) = =-(-1) (62)
4 77m 8
cos
NN
El lema expresado por la ecuación 51 se ha demostrado combinando las ecuaciones 58, 60 y 62.
10 Una expresión simplificada de la respuesta de impulso hII puede ser derivada usando un lema que postula lo siguiente:
15 La prueba de este lema es similar a la prueba anterior. Esta prueba comienza simplificando la expresión de w(r)w(r). Recuérdese que sen2a = 1/2-1/2cos(2a), de modo que:
2 (7 1 ) 11 ( 27 1 )
sen (r + ) =-cos (r + ) (64)
N 2 22 N 2
20 Usando esta expresión, la ecuación 63 puede ser escrita de nuevo como:
N
-
1
2 [11 ( 27 1 ): [27:
I(r ) -cos (r + ) sen (r )(r + n )
=N[ :[0 :
r=02 2 N 2 N
N N
-
1 -1
12 [27: 12 [27 1 :[27:
=Nsen (r )(r + n0) -Ncos (r + ) sen (r )(r + n0 ) (65)
[:[:[:
2 r=0 N 2 r=0 N 2 N
25 A partir de la ecuación 37 y del lema asociado se puede ver que el primer término de la ecuación 65 es igual a cero. El segundo término puede ser simplificado usando la identidad geométrica cosu.senv = 1/2[sen(u+v)-sen(u-v)], obteniéndose lo siguiente:
N
-
1
12 [27 127:
I(r ) =-Nsen (r + ) + (r )(r + n0):+
[
4 r=0 N 2 N
N
1 2 -127 127
N [[ 0 ::
+ sen (r + ) -(r )(r + n ) (66) 4 r=0 N 2 N
5 Haciendo referencia a la ecuación 66, su primer término es igual al negativo del primer término de la ecuación 55, y su segundo término es igual al segundo término de la ecuación 55. La prueba del lema expresado en la ecuación 63 puede ser demostrado de una forma similar a la usada para demostrar el lema expresado en la ecuación 51. La diferencia principal en la prueba es el análisis de singularidad de la ecuación 59 y de la ecuación 61. Para esta
Nm+1
prueba I(mN-1) es multiplicado por un factor adicional de -1; por lo tanto, I(mN-1) = (-1) . Teniendo en 8 10 cuenta esta diferencia junto con el signo menos que precede al primer término de la ecuación 55, se prueba el lema expresado en la ecuación 63.
Una expresión exacta para la respuesta de impulso hII(T) está dada por este lema; sin embargo, es necesario ser evaluada solamente para valores impares de T debido a que la convolución modificada de hII en la ecuación 41a es
15 evaluada solamente para T = (2v-(2I+1)). De acuerdo con 1a ecuaci6n 63, hII(T)=0 para valores impares de T excepto para T = mN+1 y T = mN-1. Debido a que hII(T) no es cero para solamente dos valores de T, esta respuesta de impulso puede ser expresada como:
Las respuestas de impulso hI,III(T) y hII(T) para la función ventana de seno y N = 128 se ilustran en las Figuras 7 y 8, respectivamente.
Usando las expresiones analíticas para las respuestas de impulso hI,III(T) y hII(T) proporcionadas por las ecuaciones 25 51 y 67, las ecuaciones 41a y 41b pueden escribirse de nuevo de la siguiente forma:
S(2v+1) = S(N -2(1+v )) (68b)
Usando las ecuaciones 68a y 68b, los coeficientes MDST del segmento II pueden ser calculados a partir de los coeficientes MDCT de los segmentos I, II y III aceptando el uso de una función ventana de seno. La complejidad del 5 cálculo de esta ecuación puede reducirse además aprovechando el hecho de que la respuesta de impulso hI,III(T) es igual a cero para muchos valores impares de T.
C. Estimación del componente espectral Las ecuaciones 41a y 41b expresan un cálculo de los coeficientes MDST exactos a partir de los coeficientes MDCT
10 de una función ventana arbitraria. Las ecuaciones 49a, 49b, 68a y 68b expresan cálculos de coeficientes MDST exactos a partir de coeficientes MDCT usando una función ventana rectangular y una función ventana de seno, respectivamente. Estos cálculos incluyen operaciones de tipo convolución de las respuestas de impulso. La complejidad de cálculo de operaciones de tipo convolución puede ser reducida por la exclusión de los cálculos de los valores de las respuestas de impulso que se sabe que son cero.
15 La complejidad de cálculo puede además reducirse por la exclusión de los cálculos de esas partes de las respuestas totales que tienen un menor significado; no obstante, este cálculo resultante proporciona sólo una estimación de los coeficientes MDST debido a que ya no es posible un cálculo exacto. Controlando las cantidades de las respuestas de impulso que son excluidas de los cálculos se puede conseguir un equilibrio apropiado entre la complejidad de
20 cálculo y la exactitud de la estimación.
Las respuestas de impulso propiamente dichas dependen de la forma de la función ventana que se ha supuesto. Como consecuencia, la elección de una función ventana afecta a las partes de las respuestas de impulso que pueden ser excluidas del cálculo sin reducir la exactitud en la estimación de coeficientes por debajo de un nivel
25 deseado.
Una inspección de la ecuación 49a para funciones ventana rectangulares muestra que la respuesta de impulso hI,III es simétrica con respecto a T=0 y disminuye moderadamente de forma rápida. Un ejemplo de esta respuesta de impulso para N=128 se muestra en la Figura 6. La respuesta de impulso hII es igual a cero para todos los valores de
30 T.
Una inspección de la ecuación 68a de la función ventana de seno muestra que la respuesta de impulso hI,III es simétrica con respecto a T=0 y disminuye más rápidamente que la correspondiente respuesta de la función ventana rectangular. Para la función ventana de seno la respuesta de impulso hII no es cero para solamente dos valores de T.
35 Un ejemplo de las respuestas de impulso hI,III y hII para una función ventana de seno y N=128 se muestran en las Figuras 7 y 8, respectivamente.
Basado en estas observaciones, una forma modificada de las ecuaciones 41a y 41b que proporciona una estimación de los coeficientes MDST para cualquier función ventana de análisis o síntesis puede ser expresada con respecto a
40 dos estructuras de filtro de la siguiente manera:
S(2v)= filter_structure_1(2v)+filter_ structure_2(2v) (69)
N -1
filter _ structure1(2 ) = 2 NmI ,III ( p)hI ,III (2 -p) (70)Np=0
mI,III(T) = [(-1)T+1XI(T) + III(T) (71)
N
-
1
filter_ structure 2(2 ) = 4 Nm (2l +1)h (2l +1) (73)
II II
Np=0
mII(T) = XII(T) (74)
S(2v+1) = S(N-2(1+v)) (76)
N
1 2
+
N
[[
y ntapstot, Ttrunc1, Ttrunc2, se escogen de forma que satisfagan
::
0,
(77)
, n
=
2
2
N
N
r
1, 1,1, 2
Un ejemplo de un dispositivo 30 que estima los coeficientes MDST de acuerdo con la ecuación 69 está ilustrado en un diagrama de bloques esquemático en la Figura 3. En esta aplicación el generador de componentes intermedios 32 recibe los coeficientes MDCT del trayecto 1 y deriva los componentes intermedios mI,III a partir de los coeficientes
::
XI y XIII de los segmentos I y III, respectivamente, realizando los cálculos mostrados en la ecuación 71, y deriva los componentes intermedios primeros mII a partir de los coeficientes XII del segmento II realizando los cálculos mostrados en la ecuación 74. El generador de componentes intermedios 34 deriva unos segundos componentes intermedios adicionales formando una reunión de los segundos componentes intermedios mI,III recibidos de las
[[
respuestas de impulso 33 realizando los cálculos mostrados en la ecuación 70, y deriva unos componentes intermedios adicionales formando una combinación de primeros componentes intermedios mII de acuerdo con una parte de la respuesta de impulso hII recibida de las respuestas de impulso 33 realizando los cálculos mostrados en la ecuación 73. Cualquier parte de las dos respuestas de impulso puede ser usada por los valores Ttrunc1 y Ttrunc2 y que incluyen las respuestas totales. El uso de respuestas de impulso más largas aumenta la complejidad de los cálculos y generalmente aumenta la exactitud de la estimación del coeficiente MDST. El generador 35 de componentes espectrales obtiene los coeficientes MDST a partir de los segundos componentes intermedios realizando los cálculos
[[ mostrados en las ecuaciones 69 y 76.
El estimador 36 de magnitud y fase calcula las medidas de magnitud y fase a partir de los coeficientes MDST calculados y de los coeficientes MDCT recibidos del trayecto 31 y pasa estas medidas a lo largo de los trayectos 38 y 39. Los coeficientes MDST pueden también ser pasados a lo largo del trayecto 37. Las medidas de la fase y magnitud espectrales pueden ser obtenidas realizando los cálculos mostrados antes en las ecuaciones 10 y 11, por ejemplo. Otros ejemplos de medidas que pueden obtenerse incluyen el flujo espectral, el cual puede ser obtenido a partir de la primera derivada de la magnitud espectral, y de la frecuencia instantánea, la cual puede obtenerse a partir de la primera derivada de la fase espectral.
Con referencia a las respuestas de impulsos mostradas en las Figuras 6-8, por ejemplo, se puede ver que los valores de los coeficientes obtenidos por las operaciones de tipo convolución de las dos estructuras de filtro están dominadas por las partes de las respuestas que son próximas a T=0. Se puede conseguir un equilibrio entre la complejidad de los cálculos y la exactitud de la estimación para una determinada aplicación escogiendo el número total de derivaciones de filtro ntapstot que se usan para llevar a cabo las dos estructuras de filtro. El número total de derivaciones ntapstot puede ser distribuido entre las estructuras de filtro primera y segunda según se desee de acuerdo con los valores de Ttrunc1 y Ttrunc2, respectivamente, para adaptar la estimación del coeficiente MDST a las necesidades de las aplicaciones específicas. La distribución de derivaciones entre las dos estructuras de filtros puede afectar a la exactitud de la estimación pero no afecta a la complejidad de los cálculos.
El número y la elección de las derivaciones de cada estructura de filtro pueden ser seleccionados usando cualquier criterio que se desee. Por ejemplo, una inspección de dos respuestas de impulso hI,III y hII revelará las partes de las respuestas que son más significativas. Las derivaciones pueden elegirse para solamente las partes más significativas. Además, se puede reducir la complejidad de los cálculos obteniendo solamente los coeficientes MDST seleccionados, tal como los coeficientes en una o más gamas de frecuencia.
Una aplicación adaptativa del presente invento puede usar partes mayores de las respuestas de impulso para estimar los coeficientes MDST de los componentes espectrales que se ha supuesto que son perceptualmente más significativos por un modelo perceptual. Por ejemplo, una medida de significancia perceptual para un componente espectral podría ser derivada de la cantidad en la que el componente espectral excede de un umbral de enmascaramiento perceptual que es calculado por un modelo perceptual. Partes más pequeñas de las respuestas de impulso pueden ser usadas para estimar los coeficientes MDST de los componentes espectrales menos
2
1
(78)
ntaps
r
,
2 1 2
trunc
trunc tot trunc trunc
2
4
-
v
+
-
r
=
-
::
r
significativos. Se pueden evitar los cálculos necesarios para estimar los coeficientes MDST de los componentes espectrales menos significativos.
Una aplicación no adaptativa puede obtener estimaciones de los coeficientes MDST en diversas subbandas de frecuencia de una señal usando partes de las respuestas de impulso cuyas longitudes varían de acuerdo con la significancia perceptual de las subbandas previamente determinadas por un análisis de señales a modo de ejemplo. En muchas aplicaciones de codificación de audio el contenido espectral en las subbandas de frecuencia generalmente tiene una significancia perceptual mayor que el contenido espectral en las subbandas de frecuencia mayor. En estas aplicaciones, por ejemplo, una aplicación no adaptativa podría estimar los coeficientes MDST en subbandas usando partes de las respuestas de impulso cuya longitud varía inversamente con la frecuencia de las subbandas.
D. Consideraciones adicionales La anterior exposición muestra ejemplos que describen sólo unas pocas aplicaciones del presente invento. Los principios del presente invento pueden ser aplicados y llevados a cabo en una amplia variedad de formas. A continuación se describen unas consideraciones adicionales.
1. Otras transformaciones
Los ejemplos de aplicaciones que se han descrito se han derivado de las MDCT que se ha expresado en relación con las ODFT aplicadas a los segmentos de longitud fija de una señal fuente que se solapan entre sí una mitad de la longitud del segmento. Una variación de los ejemplos discutidos anteriormente así como una variación de las alternativas discutidas más adelante pueden obtenerse derivando aplicaciones de las MDST que está expresada en relación con las ODFT.
Aplicaciones adicionales del presente invento pueden ser derivadas de expresiones de otras transformaciones en las que están incluidas la DFT, la FFT y una expresión generalizada de la batería de filtros de MDCT discutida en el trabajo de Princen antes citado. Esta expresión generalizada está descrita en la Patente de EEUU 5.727.119 presentada el 10 de marzo de 1998.
Las aplicaciones del presente invento pueden también ser derivadas de expresiones de transformaciones que se aplican a segmentos de señal de longitud variable y a transformaciones que se aplican a segmentos que no se solapan o a cantidades de solapamiento distintas de la mitad de la longitud del segmento.
2. Estimación adaptativa
Algunos resultados empíricos aconsejan que una aplicación del presente invento con un nivel especificado de complejidad de cálculo es a menudo capaz de derivar medidas de la magnitud del componente espectral que es más exacta para los componentes espectrales que representan una banda de energía espectral que la que es en el caso de componentes espectrales que representan una única sinusoide o unas pocas sinusoides que están aisladas unas de otras en frecuencia. El proceso que estima la magnitud del componente espectral puede ser adaptado de al menos dos formas para mejorar la exactitud de la estimación de señales que tienen componentes espectrales aislados.
Una forma de adaptar el proceso es aumentar adaptativamente la longitud de las respuestas de impulso de las dos estructuras de filtro mostradas en la ecuación 69, de forma se puedan realizar cálculos más exactos para un conjunto reducido de coeficientes MDST que estén relacionados con uno o más componentes espectrales aislados.
Otra forma de adaptar este proceso es realizando adaptativamente un método alternativo para derivar magnitudes de componentes espectrales para componentes espectrales aislados. El método alternativo deriva un conjunto adicional de componentes espectrales a partir de los coeficientes MDCT, y el conjunto adicional de componentes espectrales se usa para obtener medidas de magnitud y/o de fase. Esta adaptación puede ser hecha seleccionando el método más apropiado para segmentos de la señal fuente, y puede ser hecho usando el método más apropiado para partes del espectro para un segmento determinado. Un método que se describe en el trabajo de Merdjani anteriormente citado es un posible método alternativo. Si se usa, este método preferiblemente está ampliado para proporcionar estimaciones de magnitud para más de una única sinusoide. Esto puede ser hecho disponiendo dinámicamente los coeficientes MDCT en bandas de frecuencias en donde cada una de ellas tenga un único componente espectral dominante y aplicando el método de Merdjani a cada banda de coeficientes.
La presencia de una señal fuente que tiene un componente espectral o unos pocos componentes espectrales dominantes aislados puede ser detectada usando diversas técnicas. Una técnica detecta máximos locales en coeficientes MDCT que tienen magnitudes que superan las de los coeficientes contiguos y próximos en alguna cantidad umbral y ya sea contando el número de máximos locales o determinando la distancia espectral entre máximos locales. Otra técnica determina la forma espectral de la señal fuente calculando una Medida de Planidad Espectral (SFM) de la señal fuente. La SFM se describe en N. Jayant y otros, “Digital Coding of Waveforms” (Codificación Digital de Formas de Onda), Prentice Hall, p 57, y se define como el cociente de la media geométrica y de la media aritmética de muestras de la densidad espectral de potencia de una señal.
3. Implementación
El presente invento puede ser usado ventajosamente en una amplia variedad de aplicaciones. En las Figuras 4 y 5, respectivamente, se muestran diagramas de bloques esquemáticos de un transmisor y de un receptor que incorporan diversos aspectos del presente invento.
El transmisor mostrado en la Figura 4 es similar al mostrado en la Figura 1 e incluye el estimador 30, el cual incorpora diversos aspectos del presente invento para proporcionar medidas de magnitud y de fase a lo largo de los trayectos 38 y 39, respectivamente. El codificador 6 usa estas medidas para generar información codificada que representa los componentes espectrales recibidos de la batería de filtros de análisis 3. Ejemplos de procesos que pueden ser usados en el codificador 6, los cuales pueden depender de las medidas de magnitud o de fase, incluyen modelos perceptuales usados para determinar niveles de cuantificación adaptativa, acoplamiento, y estimación de la envolvente espectral para su posterior uso por procesos de decodificación de regeneración espectral.
El receptor mostrado en la Figura 5 es similar al receptor mostrado en la Figura 2 e incluye el estimador 30, el cual incorpora diversos aspectos del presente invento para proporcionar medidas de magnitud y de fase a lo largo de los trayectos 38 y 39, respectivamente. El estimador 30 puede también proporcionar coeficientes MDST a lo largo del trayecto 37. El decodificador 26 usa estas medidas para obtener componentes espectrales a partir de la información codificada del desformateador 23. Ejemplos de procesos que pueden ser usados en el decodificador 26, los cuales pueden depender de las medidas de magnitud o de fase, incluyen los modelos perceptuales usados para determinar niveles de cuantificación adaptativa, la síntesis de componentes espectrales a partir de representaciones compuestas o acopladas, y regeneración de componentes espectrales.
Los dispositivos que incorporan diversos aspectos del presente invento pueden ser aplicados de diversas formas que incluyen el soporte lógico para la ejecución por un ordenador o por algún otro aparato que incluya unos componentes más especializados tales como los circuitos de procesador de señales digitales (DSP) acoplado a componentes similares a los encontrados en un ordenador normal. La Figura 9 es un diagrama de bloques esquemático del dispositivo 70 que puede ser usado para aplicar aspectos del presente invento. El DSP 72 proporciona recursos de cálculo. La RAM 73 es un sistema de memoria de acceso aleatorio (RAM) usada por el DSP 72 para el procesamiento de señales. La ROM 74 representa algún tipo de almacenamiento permanente tal como una memoria de acceso aleatorio (ROM) para almacenar los programas necesarios para operar el dispositivo 70 y para llevar a cabo diversos aspectos del presente invento. El control I/O 75 representa los circuitos de interfaz para recibir y transmitir señales por medio de los canales de comunicación 76, 77. Los convertidores analógicosdigitales y los convertidores digitales-analógicos pueden ser incluidos en el control I/O 75 si se desea para recibir y/o transmitir señales analógicas. En la realización mostrada todos los componentes importantes están conectados a la barra de distribución 71, la cual puede representar más de una barra de distribución física; sin embargo, no es necesaria una estructura de barra de distribución para aplicar el presente invento.
En las realizaciones aplicadas en un sistema de ordenador normal se pueden incluir componentes adicionales para hacer de interfaz con dispositivos tales como un teclado o un ratón y una pantalla, y para controlar un dispositivo de almacenamiento que tenga un medio de almacenamiento tal como una cinta o disco magnético, o un medio óptico. El medio de almacenamiento puede ser usado para registrar programas de instrucciones para operar sistemas, utilidades y aplicaciones, y puede incluir realizaciones de programas que aplican los diversos aspectos del presente invento.
Las funciones requeridas para aplicar diversos aspectos del presente invento pueden ser realizadas por componentes que son aplicadas en una amplia variedad de formas que incluyen componentes lógicos discretos, circuitos integrados, uno o más ASICs y/o procesadores controlados por programas. La manera en la que estos componentes son aplicados no es importante para el presente invento.
Las aplicaciones de soporte lógico del presente invento pueden ser transportadas por una variedad de medios que pueden ser leídos por máquina tales como bandas de base o trayectos de comunicación modulada a través del espectro, que incluyen desde frecuencias supersónicas o ultravioleta, o medios de almacenamiento que transmiten información que usa esencialmente cualquier tecnología de registro que incluye las cintas, tarjetas o discos magnéticos, tarjetas o discos ópticos, y marcas detectables en medios tales como el papel.

Claims (21)

  1. REIVINDICACIONES
    1.
    Un método de procesamiento de información que representa una señal fuente que transporta un contenido destinado al entendimiento humano, comprendiendo el método:
    recibir unos primeros componentes espectrales (31) que fueron generados por la aplicación de una primera batería de filtros de análisis (3), y de una función ventana de análisis a la señal fuente, en el que los primeros componentes espectrales representan el contenido espectral de la señal fuente expresado en un primer subespacio de un espacio multidimensional; obtener unos componentes intermedios a partir de los primeros componentes espectrales de tres segmentos contiguos de la señal fuente, en el que los primeros componentes intermedios son derivados de los primeros componentes espectrales en un segmento central de los tres segmentos contiguos, y los segundos componentes espectrales son derivados de los primeros componentes espectrales en los segmentos anteriores y posteriores; obtener unos segundos componentes espectrales (37) a partir de la suma de operaciones de convolución de los primeros y segundos componentes intermedios con las respuestas de impulso (33) de filtros hipotéticos relacionadas con el efecto combinado de una batería de filtros de síntesis inversa a la primera batería de filtros de análisis, de una función ventana de síntesis asociada, de una segunda batería de filtros de análisis posterior a la batería de filtros de síntesis, y de la función ventana de análisis, en el que los segundos componentes espectrales representan el contenido espectral de la señal fuente expresado en un segundo subespacio del espacio multidimensional que incluye una parte del espacio multidimensional no incluida en el primer subespacio; obtener unas medidas estimadas de la magnitud o fase (38, 39) usando los primeros componentes espectrales (31) y los segundos componentes espectrales (37); y aplicar un proceso adaptativo a los primeros componentes espectrales (31) para generar la información procesada, en el que el proceso adaptativo es responsable de las medidas de magnitud o de fase (38, 39) estimadas.
  2. 2.
    El método de la reivindicación 1, en el que:
    los primeros componentes espectrales son coeficientes de transformación dispuestos en bloques de los coeficientes de transformación que fueron generados por aplicación de una o más transformaciones a segmentos de la señal fuente; y las respuestas de impulso están basadas en las características de respuesta de frecuencia de una o más transformaciones.
  3. 3.
    El método de la reivindicación 2, en el que las características de la frecuencia de respuesta de una o más transformaciones dependen de las características de una o más funciones ventana de análisis que fueron aplicadas con una o más transformaciones a los segmentos de la señal fuente.
  4. 4.
    El método de la reivindicación 3, en el que al menos una o más transformaciones aplican una batería de filtros de análisis que genera los primeros componentes espectrales con un solape del dominio temporal.
  5. 5.
    El método de la reivindicación 3, en el que al menos algunas de las una o más transformaciones generan unos primeros componentes espectrales que tienen valores reales expresados en el primer subespacio, y en el que los segundos valores espectrales tienen valores imaginarios expresados en el segundo subespacio.
  6. 6.
    El método de la reivindicación 5, en el que las transformaciones que generan unos primeros componentes espectrales que tienen valores reales expresados en el primer subespacio son Transformaciones de Coseno Discretas o Transformaciones de Coseno Discretas Modificadas.
  7. 7.
    El método de acuerdo con la reivindicación 1 que además comprende obtener medidas estimadas de la magnitud
    o la fase usando uno o más terceros componentes espectrales que son derivados de al menos algunos de los primeros componentes espectrales.
  8. 8.
    El método de acuerdo con la reivindicación 7, en el que:
    los primeros componentes espectrales son coeficientes de transformación dispuestos en bloques de coeficientes de transformación que fueron generados por la aplicación de una o más transformaciones a segmentos de la señal fuente; los terceros componentes espectrales son derivados de una combinación de dos o más de los primeros componentes espectrales; y las medidas estimadas de la magnitud o la fase de un respectivo segmento de la señal fuente se obtienen adaptativamente usando bien los terceros componentes espectrales o usando los componentes espectrales primero y segundo.
  9. 9.
    El método de acuerdo con la reivindicación 7, en el que:
    los primeros componentes espectrales son coeficientes de transformación dispuestos en bloques de coeficientes de transformación que fueron generados por aplicación de una o más transformaciones a segmentos de la señal fuente; los terceros componentes espectrales son derivados de una combinación de dos o más de los primeros componentes espectrales; y las medidas estimadas de magnitud o fase de al menos algún contenido espectral de un respectivo segmento de la señal fuente son obtenidas usando los terceros componentes espectrales y las medidas estimadas de magnitud o fase de al menos algo del contenido espectral del respectivo segmento de la señal fuente se obtienen usando los componentes espectrales primero y segundo.
  10. 10.
    El método de acuerdo con cualquiera de las reivindicaciones 7 a 9 que comprende la obtención de medidas de magnitud o fase adaptativamente usando bien los terceros componentes espectrales o usando los componentes espectrales primero y segundo.
  11. 11.
    El método de acuerdo con cualquiera de las reivindicaciones 1 a 6, en el que solamente una parte de las respuestas de impulso se usan en la convolución, y el método comprende adaptar la parte de las respuestas de impulso en respuesta a una medida de significancia del componente espectral.
  12. 12.
    El método de la reivindicación 11, en el que la medida de la significancia del componente espectral está proporcionada por un modelo perceptual que valora la significancia perceptual del contenido espectral de la señal fuente.
  13. 13.
    El método de la reivindicación 11, en el que la medida de la significancia del componente espectral refleja el aislamiento en frecuencia de uno o más componentes espectrales.
  14. 14.
    El método de la reivindicación 1, en el que:
    los primeros componentes espectrales son coeficientes de transformación primeros dispuestos en bloques que fueron generados por la aplicación de una o más transformaciones a segmentos de la señal fuente, teniendo un bloque respectivo un primer número de los primeros coeficientes de transformación; los segundos componentes espectrales son segundos coeficientes de transformación; un segundo número de los segundos coeficientes de transformación son derivadas que representan el contenido espectral que también está representado por algunos de los primeros coeficientes de transformación en el bloque respectivo; y el segundo número es menor que el primer número.
  15. 15.
    El método de acuerdo con la reivindicación 1, 2, 8, 9 u 11, que comprende la aplicación del proceso adaptativo a los primeros componentes espectrales para generar los componentes espectrales sintetizados.
  16. 16.
    El método de acuerdo con la reivindicación 15, en el que al menos algunos de los componentes espectrales sintetizados son generados por la regeneración del componente espectral.
  17. 17.
    El método de acuerdo con la reivindicación 15, en el que al menos algunos de los componentes espectrales sintetizados son generados por la descomposición de unos primeros componentes espectrales y/o de unos segundos componentes espectrales que representan un compuesto de contenido espectral de una pluralidad de señales fuente.
  18. 18.
    El método de acuerdo con la reivindicación 15, en el que al menos algunos de los componentes espectrales sintetizados son generados por la descomposición de unos primeros componentes espectrales y/o de unos segundos componentes espectrales para proporcionar una representación compuesta de contenido espectral de una pluralidad de señales fuente.
  19. 19.
    El método de acuerdo con la reivindicación 1, 2, 8, 9 u 11, que comprende:
    generar los primeros componentes espectrales aplicando la primera batería de filtros de análisis a la señal fuente; aplicar el proceso adaptativo al primer componente espectral para generar una información codificada que representa al menos algunos de los primeros componentes espectrales; y generar una señal de salida que transporta la información codificada.
  20. 20.
    Un medio que transporte un programa de instrucciones que es ejecutable por un dispositivo para realizar el método de acuerdo con cualquiera de las reivindicaciones 1 a 19.
  21. 21.
    Un aparato que comprende unos medios para realizar todos los pasos del método de acuerdo con cualquiera de las reivindicaciones 1 a 19.
ES05711553T 2004-01-27 2005-01-14 Técnicas de codificación mejoradas que utilizan fase y magnitud espectrales estimadas derivadas de coeficientes mcdt (transformaciones de coseno discretas modificadas). Active ES2375285T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US766681 1991-09-27
US10/766,681 US6980933B2 (en) 2004-01-27 2004-01-27 Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
PCT/US2005/001499 WO2005073960A1 (en) 2004-01-27 2005-01-14 Improved coding techniques using estimated spectral magnitude and phase derived from mdct coefficients

Publications (1)

Publication Number Publication Date
ES2375285T3 true ES2375285T3 (es) 2012-02-28

Family

ID=34795716

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05711553T Active ES2375285T3 (es) 2004-01-27 2005-01-14 Técnicas de codificación mejoradas que utilizan fase y magnitud espectrales estimadas derivadas de coeficientes mcdt (transformaciones de coseno discretas modificadas).

Country Status (15)

Country Link
US (6) US6980933B2 (es)
EP (1) EP1709627B1 (es)
JP (1) JP4787176B2 (es)
KR (1) KR101184992B1 (es)
CN (1) CN1918633B (es)
AT (1) ATE532174T1 (es)
AU (1) AU2005208287B2 (es)
CA (1) CA2553784C (es)
DK (1) DK1709627T3 (es)
ES (1) ES2375285T3 (es)
HK (1) HK1091309A1 (es)
IL (1) IL176477A (es)
PL (1) PL1709627T3 (es)
TW (1) TWI374612B (es)
WO (1) WO2005073960A1 (es)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6980933B2 (en) 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
CN1914669A (zh) * 2004-01-28 2007-02-14 皇家飞利浦电子股份有限公司 使用复数值数据的音频信号解码
US9055298B2 (en) * 2005-07-15 2015-06-09 Qualcomm Incorporated Video encoding method enabling highly efficient partial decoding of H.264 and other transform coded information
US20070118361A1 (en) * 2005-10-07 2007-05-24 Deepen Sinha Window apparatus and method
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
EP4372743A2 (en) * 2006-01-27 2024-05-22 Dolby International AB Efficient filtering with a complex modulated filterbank
WO2007148461A1 (ja) * 2006-06-19 2007-12-27 Panasonic Corporation エンコーダ信号の位相補正回路
US8214200B2 (en) * 2007-03-14 2012-07-03 Xfrm, Inc. Fast MDCT (modified discrete cosine transform) approximation of a windowed sinusoid
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
CN101552006B (zh) * 2009-05-12 2011-12-28 武汉大学 加窗信号mdct域的能量及相位调整方法及其装置
WO2010134757A2 (ko) * 2009-05-19 2010-11-25 한국전자통신연구원 계층형 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
CN101958119B (zh) * 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
CN103761971B (zh) 2009-07-27 2017-01-11 延世大学工业学术合作社 一种处理音频信号的方法和装置
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
PL3998606T3 (pl) * 2009-10-21 2023-03-06 Dolby International Ab Nadrpóbkowanie w połączonym banku filtrów modułu transpozycji
EP2372703A1 (en) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
AU2011237882B2 (en) 2010-04-09 2014-07-24 Dolby International Ab MDCT-based complex prediction stereo coding
BR112012026324B1 (pt) 2010-04-13 2021-08-17 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E. V Codificador de aúdio ou vídeo, decodificador de aúdio ou vídeo e métodos relacionados para o processamento do sinal de aúdio ou vídeo de múltiplos canais usando uma direção de previsão variável
CN103582913B (zh) * 2011-04-28 2016-05-11 杜比国际公司 有效内容分类及响度估计
TWI575962B (zh) * 2012-02-24 2017-03-21 杜比國際公司 部份複數處理之重疊濾波器組中的低延遲實數至複數轉換
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
KR101498113B1 (ko) * 2013-10-23 2015-03-04 광주과학기술원 사운드 신호의 대역폭 확장 장치 및 방법
EP2963649A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
EP3067889A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5297236A (en) * 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
CA2090052C (en) * 1992-03-02 1998-11-24 Anibal Joao De Sousa Ferreira Method and apparatus for the perceptual coding of audio signals
US5451954A (en) * 1993-08-04 1995-09-19 Dolby Laboratories Licensing Corporation Quantization noise suppression for encoder/decoder system
CA2206129C (en) * 1994-12-20 2009-11-10 Dolby Laboratories Licensing Corporation Method and apparatus for applying waveform prediction to subbands of a perceptual coding system
US5699479A (en) * 1995-02-06 1997-12-16 Lucent Technologies Inc. Tonality for perceptual audio compression based on loudness uncertainty
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
US5727119A (en) * 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US5781888A (en) * 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
US6035177A (en) * 1996-02-26 2000-03-07 Donald W. Moses Simultaneous transmission of ancillary and audio signals by means of perceptual coding
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US5945940A (en) * 1998-03-12 1999-08-31 Massachusetts Institute Of Technology Coherent ultra-wideband processing of sparse multi-sensor/multi-spectral radar measurements
US6847737B1 (en) * 1998-03-13 2005-01-25 University Of Houston System Methods for performing DAF data filtering and padding
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
JP4099608B2 (ja) 1998-07-29 2008-06-11 ソニー株式会社 信号処理装置、記録媒体及び信号処理方法
US6266644B1 (en) * 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
US6182030B1 (en) * 1998-12-18 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced coding to improve coded communication signals
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6862326B1 (en) * 2001-02-20 2005-03-01 Comsys Communication & Signal Processing Ltd. Whitening matched filter for use in a communications receiver
SE0101175D0 (sv) * 2001-04-02 2001-04-02 Coding Technologies Sweden Ab Aliasing reduction using complex-exponential-modulated filterbanks
US6963842B2 (en) * 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
DE10234130B3 (de) * 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
CA2399159A1 (en) * 2002-08-16 2004-02-16 Dspfactory Ltd. Convergence improvement for oversampled subband adaptive filters
US6980933B2 (en) 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients

Also Published As

Publication number Publication date
AU2005208287B2 (en) 2010-02-18
CA2553784C (en) 2013-07-30
US20050165587A1 (en) 2005-07-28
US6980933B2 (en) 2005-12-27
DK1709627T3 (da) 2012-02-13
EP1709627A1 (en) 2006-10-11
CN1918633B (zh) 2011-01-05
AU2005208287A1 (en) 2005-08-11
TW200525899A (en) 2005-08-01
ATE532174T1 (de) 2011-11-15
KR101184992B1 (ko) 2012-10-02
USRE48210E1 (en) 2020-09-15
USRE42935E1 (en) 2011-11-15
JP2007524300A (ja) 2007-08-23
USRE44126E1 (en) 2013-04-02
IL176477A (en) 2010-04-15
CA2553784A1 (en) 2005-08-11
KR20060131797A (ko) 2006-12-20
HK1091309A1 (en) 2007-01-12
USRE46684E1 (en) 2018-01-23
IL176477A0 (en) 2006-10-05
EP1709627B1 (en) 2011-11-02
USRE48271E1 (en) 2020-10-20
TWI374612B (en) 2012-10-11
PL1709627T3 (pl) 2012-03-30
WO2005073960A1 (en) 2005-08-11
JP4787176B2 (ja) 2011-10-05
CN1918633A (zh) 2007-02-21

Similar Documents

Publication Publication Date Title
ES2375285T3 (es) Técnicas de codificación mejoradas que utilizan fase y magnitud espectrales estimadas derivadas de coeficientes mcdt (transformaciones de coseno discretas modificadas).
EP0818037B1 (en) Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
KR101085477B1 (ko) 스펙트럼 성분 커플링 및 스펙트럼 성분 재생성을 사용하는개선된 오디오 코딩 시스템 및 방법
ES2873977T3 (es) Codificador, decodificador y métodos para la transformada por ampliación dependiente de señales en la codificación espacial de objetos de audio
ES2273268T3 (es) Dispositivo y procedimiento para convertir en una representacion transformada o para convertir de manera inversa la representacion transformada.
EP0827647B1 (en) Analysis/synthesis filtering system with efficient oddly-stacked single-sideband filter bank using time-domain aliasing cancellation
US10410644B2 (en) Reduced complexity transform for a low-frequency-effects channel
MXPA06008474A (es) Tecnicas de codificacion mejoradas que utilizan magnitud y fase espectrales estimadas derivadas a partir de coeficientes de mdct
BR112013022988B1 (pt) Método para processar um sinal de áudio digital, aparelho para processar um sinal de áudio digital e meio de armazenamento
AU2012238001A1 (en) Reduced complexity transform for a low-frequency-effects channel
TW201340095A (zh) 用於低頻效應頻道降低複雜度之轉換