ES2966335T3 - Divisiones en tejas de tiempo-frecuencia variables en el tiempo mediante bancos de filtros ortogonales no uniformes en base a análisis/síntesis de mdct y tdar - Google Patents

Divisiones en tejas de tiempo-frecuencia variables en el tiempo mediante bancos de filtros ortogonales no uniformes en base a análisis/síntesis de mdct y tdar Download PDF

Info

Publication number
ES2966335T3
ES2966335T3 ES20757930T ES20757930T ES2966335T3 ES 2966335 T3 ES2966335 T3 ES 2966335T3 ES 20757930 T ES20757930 T ES 20757930T ES 20757930 T ES20757930 T ES 20757930T ES 2966335 T3 ES2966335 T3 ES 2966335T3
Authority
ES
Spain
Prior art keywords
samples
sub
band
sets
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES20757930T
Other languages
English (en)
Inventor
Nils Werner
Bernd Edler
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2966335T3 publication Critical patent/ES2966335T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Las realizaciones proporcionan un método para procesar una señal de audio para obtener una representación de subbanda de la señal de audio. El método comprende una etapa de realizar una transformación de muestreo crítico superpuesta en cascada en al menos dos bloques de muestras de la señal de audio parcialmente superpuestos, para obtener conjuntos de muestras de subbanda sobre la base de un primer bloque de muestras de la señal de audio, y para obtener conjuntos de muestras de subbanda sobre la base de un segundo bloque de muestras de la señal de audio. Además, el método comprende una etapa de identificación, en caso de que los conjuntos de muestras de subbanda que se basan en el primer bloque de muestras representen diferentes regiones en un plano de tiempo-frecuencia en comparación con los conjuntos de muestras de subbanda que se basan en el segundo bloque. de muestras, uno o más conjuntos de muestras de subbanda de los conjuntos de muestras de subbanda que se basan en el primer bloque de muestras y uno o más conjuntos de muestras de subbanda de los conjuntos de muestras de subbanda que se basan en el segundo bloque de muestras que en combinación representan la misma región del plano tiempo-frecuencia. Además, el método comprende una etapa de realizar transformaciones de tiempo-frecuencia en uno o más conjuntos de muestras de subbanda identificados a partir de los conjuntos de muestras de subbanda que se basan en el primer bloque de muestras y/o en uno o más conjuntos de muestras de subbanda identificados. muestras de los conjuntos de muestras de subbanda que se basan en el segundo bloque de muestras, para obtener una o más muestras de subbanda transformadas en tiempo-frecuencia, cada una de las cuales representa la misma región en el plano tiempo-frecuencia que una correspondiente de las identificadas. una o más muestras de subbanda o una o más versiones transformadas en tiempo-frecuencia de las mismas. Además, el método comprende una etapa de realizar una combinación ponderada de dos conjuntos correspondientes de muestras de subbanda o versiones transformadas en tiempo-frecuencia de las mismas, uno obtenido sobre la base del primer bloque de muestras de la señal de audio y otro obtenido sobre la base del segundo bloque de muestras de la señal de audio, para obtener representaciones de subbanda reducidas de aliasing de la señal de audio. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Divisiones en tejas de tiempo-frecuencia variables en el tiempo mediante bancos de filtros ortogonales no uniformes en base a análisis/síntesis de mdct y tdar
Los modos de realización se refieren a un procesador/método de audio para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio. Otros modos de realización se refieren a un procesador/método de audio para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio. Algunos modos de realización se refieren a divisiones en tejas de tiempo-frecuencia variables en el tiempo mediante bancos de filtros ortogonales no uniformes en base a análisis/síntesis de MDCT (MDCT = transformada de coseno discreta modificada) y TDAR (TDAR = reducción de solapamiento en el dominio del tiempo).
Anteriormente se mostró que es posible el diseño de un banco de filtros ortogonales no uniformes mediante la fusión de sub-bandas [1], [2], [3] y al introducir un paso de post-procesamiento denominado Reducción de solapamiento en el Dominio del Tiempo (TDAR) son posibles respuestas de impulso compactas [4]. Asimismo, se mostró que el uso de este filtro de bancos de TDAR en la codificación de audio produce una eficiencia de codificación más alta y/o una calidad perceptual mejorada en comparación con la conmutación de ventanas [5].
Sin embargo, una gran desventaja de la TDAR reside en que requiere dos tramas adyacentes para utilizar divisiones en tejas de tiempo-frecuencia idénticas. Esto limita la flexibilidad del banco de filtros cuando se requieren divisiones en tejas de tiempo-frecuencia adaptables variables en el tiempo, dado que la TDAR tiene que ser deshabilitada temporalmente para conmutar de una división en tejas a otra. Tal conmutación es comúnmente requerida cuando las características de la señal de entrada cambian, es decir, cuando se encuentran transitorios. En la MDCT uniforme, esto se logra mediante la conmutación de ventanas [6].
En [11] EP 3276 620 A1 se describe un procesador de audio para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio. El procesador de audio comprende una etapa de transformada muestreada críticamente solapada en cascada y una etapa de reducción de solapamiento en el dominio del tiempo. La etapa de transformada muestreada críticamente solapada en cascada está configurada para realizar una transformada muestreada críticamente solapada en cascada en al menos dos bloques de muestras de la señal de audio que se solapan parcialmente, para obtener un conjunto de muestras de sub-banda en base a un primer bloque de muestras de la señal de audio, y para obtener un conjunto correspondiente de muestras de sub-banda en base a un segundo bloque de muestras de la señal de audio. La etapa de reducción de solapamiento en el dominio del tiempo está configurada para efectuar una combinación ponderada de dos conjuntos correspondientes de muestras de sub banda, uno obtenido en base al primer bloque de muestras de la señal de audio y uno obtenido en base al segundo bloque de muestras de la señal de audio, para obtener una representación en sub-bandas con reducción de solapamiento de la señal de audio.
En [12] se describe un método para codificar una señal de audio. El método comprende el hecho de: aplicar múltiples transformaciones del dominio del tiempo al dominio de la frecuencia diferentes a una trama de señal de audio; calcular medidas de eficiencia de codificación en múltiples bandas de frecuencia para múltiples resoluciones de tiempofrecuencia; seleccionar una combinación de resoluciones de tiempo-frecuencia para representar la trama en cada una de las múltiples bandas de frecuencia en base al menos en parte a las medidas calculadas de eficiencia de codificación; determinar un tamaño de ventana y un tamaño de transformada correspondiente; determinar una transformada de modificación; dividir en ventanas la trama mediante el tamaño de ventana determinado; transformar la trama dividida en ventanas mediante el tamaño de transformada determinado; modificar una resolución de tiempofrecuencia en una banda de frecuencias de la transformada de la trama dividida en ventanas mediante la transformación de modificación determinada.
En [13] se describe un diseño de banco de filtros de análisis/síntesis en base a la cancelación de solapamiento en el dominio del tiempo.
Por lo tanto, el objeto de la presente invención es mejorar la compacidad de la respuesta de impulso de un banco de filtros no uniforme, incluso cuando las características de la señal de entrada cambian.
Este objetivo se resuelve mediante las reivindicaciones independientes.
Implementaciones ventajosas son abordadas en las reivindicaciones dependientes.
Los modos de realización proporcionan un procesador de audio para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio. El procesador de audio comprende una etapa de transformada muestreada críticamente solapada en cascada configurada para efectuar una transformada muestreada críticamente solapada en cascada sobre al menos dos bloques de muestras de la señal de audio que se solapan parcialmente, para obtener conjuntos de muestras de sub-banda en base a un primer bloque de muestras de la señal de audio y para obtener conjuntos de muestras de sub-banda en base a un segundo bloque de muestras de la señal de audio. Además, el procesador de audio comprende una primera etapa de transformada del dominio del tiempo al dominio de la frecuencia configurada para identificar, en el caso de que los conjuntos de muestras de sub-banda que se basan en el primer bloque de muestras representan regiones diferentes en un plano de tiempo-frecuencia [por ejemplo, la representación del plano de tiempo-frecuencia del primer bloque de muestras y del segundo bloque de muestras] en comparación con los conjuntos de muestras de sub-banda que se basan en el segundo bloque de muestras, uno o más conjuntos de muestras de sub-banda de los conjuntos de muestras de sub-banda que se basan en el primer bloque de muestras y uno o más conjuntos de muestras de sub-banda de los conjuntos de muestras de sub-banda que se basan en el segundo bloque de muestras que, en combinación, representan la misma región en el plano de tiempo-frecuencia y para transformar del dominio del tiempo al dominio de la frecuencia los uno o más conjuntos identificados de muestras de sub-banda de los conjuntos de muestras de sub-banda que se basan en el primer bloque de muestras y/o los uno o más conjuntos identificados de muestras de sub-banda de los conjuntos de muestras de sub-banda que se basan en el segundo bloque de muestras, para obtener una o más muestras de sub-banda transformadas del dominio del tiempo al dominio de la frecuencia que representan, cada una, la misma región en el plano de tiempo-frecuencia que una correspondiente de las una o más muestras de sub-banda identificadas o una o más versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas. Además, el procesador de audio comprende una etapa de reducción de solapamiento en el dominio del tiempo configurada para efectuar una combinación ponderada de dos conjuntos correspondientes de muestras de sub-banda o versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas, una obtenida en base al primer bloque de muestras de la señal de audio y una obtenida en base al segundo bloque de muestras de la señal de audio, para obtener representaciones de sub-banda con solapamiento reducido de la señal de audio (102).
En modos de realización, la transformada del dominio del tiempo al dominio de la frecuencia efectuada por la etapa de transformada del dominio del tiempo al dominio de la frecuencia es una transformada muestreada críticamente solapada.
En modos de realización, la transformada del dominio del tiempo al dominio de la frecuencia de los uno o más conjuntos identificados de muestras de sub-banda de los conjuntos de muestras de sub-banda que se basan en el segundo bloque de muestras y/o de los uno o más conjuntos identificados de muestras de sub-banda de los conjuntos de muestras de sub-banda que se basan en el segundo bloque de muestras efectuada por la etapa de transformada del dominio del tiempo al dominio de la frecuencia corresponde a una transformada descrita por la siguiente fórmula
dondeS(m)describe la transformada, dondemdescribe el índice del bloque de las muestras de la señal de audio, dondeT0 ••• TKdescribe las muestras de sub-banda de los uno o más conjuntos identificados de muestras de sub banda correspondientes.
Por ejemplo, la etapa de transformada del dominio del tiempo al dominio de la frecuencia puede estar configurada para la transformada del dominio del tiempo al dominio de la frecuencia de los uno o más conjuntos identificados de muestras de sub-banda de los conjuntos de muestras de sub-banda que se basan en el segundo bloque de muestras y/o de los uno o más conjuntos identificados de las muestras de sub-banda de los conjuntos de muestras de sub banda que se basan en el segundo bloque de muestras en base a la fórmula más arriba.
En modos de realización, la etapa de transformada muestreada críticamente solapada en cascada está configurada para procesar un primer conjunto de bines obtenido en base al primer bloque de muestras de la señal de audio y un segundo conjunto de bines obtenido en base al segundo bloque de muestras de la señal de audio mediante una etapa de transformada muestreada críticamente solapada en cascada de la etapa de transformada muestreada críticamente solapada en cascada, donde la segunda etapa de transformada muestreada críticamente solapada en cascada está configurada para efectuar, en función de las características de la señal de audio [por ejemplo, cuando las características de la señal de audio cambian], primeras transformadas muestreadas críticamente solapadas sobre el primer conjunto de bines y segundas transformadas muestreadas críticamente solapadas sobre el segundo conjunto de bines, donde una o más de las primeras transformadas muestreadas críticamente presentan longitudes diferentes en comparación con las segundas transformadas muestreadas críticamente.
En modos de realización, la etapa de transformada del dominio del tiempo al dominio de la frecuencia está configurada para identificar, en el caso de que una o más de las primeras transformadas muestreadas críticamente presentan longitudes diferentes [por ejemplo, factores de fusión] en comparación con las segundas transformadas muestreadas críticamente, uno o más conjuntos de muestras de sub-banda de los conjuntos de muestras de sub-banda que se basan en el primer bloque de muestras y uno o más conjuntos de muestras de sub-banda de los conjuntos de muestras de sub-banda que se basan en el segundo bloque de muestras que representan la misma parte de tiempo-frecuencia de la señal de audio.
En modos de realización, el procesador de audio comprende una segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia configurada para transformar del dominio del tiempo al dominio de la frecuencia la representación en sub-bandas de solapamiento reducido de la señal de audio, donde una transformada del dominio del tiempo al dominio de la frecuencia aplicada por la segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia es inversa a la transformada del dominio del tiempo al dominio de la frecuencia aplicada por la primera etapa de transformada del dominio del tiempo al dominio de la frecuencia.
En modos de realización, la reducción de solapamiento en el dominio del tiempo efectuada por la etapa de reducción de solapamiento en el dominio del tiempo corresponde a una transformada descrita por la siguiente fórmula
dondeR(z,m)describe la transformada, donde z describe el índice de trama en el dominio z, dondemdescribe el índice del bloque de muestras de la señal de audio, dondeF'0 —F'Kdescribe las versiones modificadas de lasNxNmatrices de pre-permutación/plegado de transformada muestreada críticamente solapada.
En modos de realización, el procesador de audio está configurado para proporcionar un flujo de bits que comprende un parámetro de STDAR que indica si una longitud de los uno o más conjuntos de muestras de sub-banda identificados que corresponden al primer bloque de muestras o al segundo bloque de muestras es utilizada en la etapa de reducción de solapamiento en el dominio del tiempo para obtener la representación en sub-bandas de solapamiento reducido correspondiente de la señal de audio, o donde el procesador de audio está configurado para proporcionar un flujo de bits que comprende parámetros de longitud de MDCT [por ejemplo, parámetros de factor de fusión [MF]] que indican las longitudes de los conjuntos de muestras de sub-banda.
En modos de realización, el procesador de audio está configurado para efectuar la codificación de canales conjunta.
En modos de realización, el procesador de audio está configurado para efectuar la M/S o MCT como un procesamiento de canales conjunto.
En modos de realización, el procesador de audio está configurado para proporcionar un flujo de bits que comprende al menos un parámetro de STDAR que indica una longitud de las una o más muestras de sub-banda transformadas del dominio del tiempo al dominio de la frecuencia que corresponden al primer bloque de muestras y de las una o más muestras de sub-banda transformadas del dominio del tiempo al dominio de la frecuencia que corresponden al segundo bloque de muestras utilizado en la etapa de reducción de solapamiento en el dominio del tiempo para obtener la representación en sub-bandas de solapamiento reducido correspondiente de la señal de audio o una versión codificada de la misma [por ejemplo, una versión de entropía o codificada de manera diferencial de la misma].
En modos de realización, la etapa de transformada muestreada críticamente solapada en cascada comprende una primera etapa de transformada muestreada críticamente solapada configurada para efectuar transformadas muestreadas críticamente solapadas sobre un primer bloque de muestras y un segundo bloque de muestras de los al menos dos bloques de muestras que se solapan parcialmente de la señal de audio, para obtener un primer conjunto de bines para el primer bloque de muestras y un segundo conjunto de bines para el segundo bloque de muestras.
En modos de realización, la etapa de transformada muestreada críticamente solapada en cascada comprende además una segunda etapa de transformada muestreada críticamente solapada configurada para efectuar una transformada muestreada críticamente solapada sobre un segmento del primer conjunto de bines y para efectuar una transformada muestreada críticamente solapada sobre un segmento del segundo conjunto de bines, donde cada segmento está asociado a una sub-banda de la señal de audio, para obtener un conjunto de muestras de sub-banda del primer conjunto de bines y un conjunto de muestras de sub-banda para el segundo conjunto de bines.
Otros modos de realización proporcionan un procesador de audio para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio, donde la representación en sub-bandas de la señal de audio comprende conjuntos de muestras de solapamiento reducido. El procesador de audio comprende una segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa configurada para transformar del dominio del tiempo al dominio de la frecuencia uno o más conjuntos de muestras de sub-banda de solapamiento reducido de conjuntos de muestras de sub-banda de solapamiento reducido que corresponden a un segundo bloque de muestras de la señal de audio y/o uno o más conjuntos de muestras de sub-banda de solapamiento reducido de los conjuntos de muestras de sub-banda de solapamiento reducido que corresponden a un segundo bloque de muestras de la señal de audio, para obtener una o más muestras de sub-banda de solapamiento reducido transformadas del dominio del tiempo al dominio de la frecuencia que representan, cada una, la misma región en el plano de tiempo-frecuencia que una correspondiente de las una o más muestras de sub-banda de solapamiento reducido que corresponden al otro bloque de muestras de la señal de audio o una o más versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas. Además, el procesador de audio comprende una etapa de reducción de solapamiento en el dominio del tiempo inversa configurada para efectuar combinaciones ponderadas de conjuntos correspondientes de muestras de sub-banda de solapamiento reducido o versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas, para obtener una representación en sub-bandas solapada. Además, el procesador de audio comprende una primera etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa configurada para transformar del dominio del tiempo al dominio de la frecuencia la representación en sub-bandas solapada, para obtener conjuntos de muestras de sub-banda que corresponden al primer bloque de muestras de la señal de audio y conjuntos de muestras de sub-banda que corresponden al segundo bloque de muestras de la señal de audio, donde una transformada del dominio del tiempo al dominio de la frecuencia aplicada por la primera etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa es inversa a la transformada del dominio del tiempo al dominio de la frecuencia aplicada por la segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa. Además, el procesador de audio comprende una etapa de transformada muestreada críticamente solapada inversa en cascada configurada para efectuar una transformada muestreada críticamente solapada inversa en cascada sobre los conjuntos de muestras, para obtener un conjunto de muestras asociado a un bloque de muestras de la señal de audio.
Otros modos de realización proporcionan un método para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio. El método comprende un paso que consiste en efectuar una transformada muestreada críticamente solapada en cascada sobre al menos dos bloques de muestras de la señal de audio que se solapan parcialmente, para obtener conjuntos de muestras de sub-banda en base a un primer bloque de muestras de la señal de audio y para obtener conjuntos de muestras de sub-banda en base a un segundo bloque de muestras de la señal de audio. Además, el método comprende un paso que consiste en identificar, en el caso de que los conjuntos de muestras de sub-banda que se basan en el primer bloque de muestras representan regiones diferentes en el plano de tiempo-frecuencia en comparación con los conjuntos de muestras de sub-banda que se basan en el segundo bloque de muestras, uno o más conjuntos de muestras de sub-banda de los conjuntos de muestras de sub-banda que se basan en el primer bloque de muestras y uno o más conjuntos de muestras de sub banda de los conjuntos de muestras de sub-banda que se basan en el segundo bloque de muestras que representan, en combinación, la misma región del plano de tiempo-frecuencia. Además, el método comprende un paso que consiste en efectuar transformadas del dominio del tiempo al dominio de la frecuencia sobre los uno o más conjuntos de muestras de sub-banda identificados de los conjuntos de muestras de sub-banda que se basan en el primer bloque de muestras y/o los uno o más conjuntos de muestras de sub-banda identificados de los conjuntos de muestras de sub-banda que se basan en el segundo bloque de muestras, para obtener una o más muestras de sub-banda transformadas del dominio del tiempo al dominio de la frecuencia que representan, cada una, la misma región en el plano de tiempo-frecuencia que una correspondiente de las una o más muestras de sub-banda identificadas o una o más versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas. Además, el método comprende un paso que consiste en efectuar una combinación ponderada de dos conjuntos correspondientes de muestras de sub-banda o versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas, una obtenida en base al primer bloque de muestras de la señal de audio y una obtenida en base al segundo bloque de muestras de la señal de audio, para obtener representaciones de sub-banda de solapamiento reducido de la señal de audio.
Otros modos de realización proporcionan un método para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio, donde la representación en sub-bandas de la señal de audio comprende conjuntos de muestras con solapamiento reducido. El método comprende un paso que consiste en efectuar transformadas del dominio del tiempo al dominio de la frecuencia sobre uno o más conjuntos de muestras de sub banda de solapamiento reducido de los conjuntos de muestras de sub-banda de solapamiento reducido que corresponden a un segundo bloque de muestras de la señal de audio y/o uno o más conjuntos de muestras de sub banda de solapamiento reducido de los conjuntos de muestras de sub-banda de solapamiento reducido que corresponden a un segundo bloque de muestras de la señal de audio, para obtener una o más muestras de sub-banda de solapamiento reducido transformadas del dominio del tiempo al dominio de la frecuencia que representan, cada una, la misma región en el plano de tiempo-frecuencia que una correspondiente de las una o más muestras de sub banda de solapamiento reducido que corresponden al otro bloque de muestras de la señal de audio o una o más versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas. Además, el método comprende un paso que consiste en efectuar combinaciones ponderadas de conjuntos correspondientes de muestras de sub-banda de solapamiento reducido o versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas, para obtener una representación en sub-bandas solapada. Además, el método comprende un paso que consiste en efectuar transformadas del dominio del tiempo al dominio de la frecuencia sobre la representación en sub-bandas solapada, para obtener conjuntos de muestras de sub-banda que corresponden al primer bloque de muestras de la señal de audio y conjuntos de muestras de sub-banda que corresponden al segundo bloque de muestras de la señal de audio, donde la transformada del dominio del tiempo al dominio de la frecuencia aplicada por la primera etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa es inversa a la transformada del dominio del tiempo al dominio de la frecuencia aplicada por la segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa. Además, el método comprende un paso que consiste en efectuar una transformada muestreada críticamente solapada inversa en cascada sobre los conjuntos de muestras, para obtener un conjunto de muestras asociadas a un bloque de muestras de la señal de audio.
Según el concepto de la presente invención, la reducción de solapamiento en el dominio del tiempo entre dos tramas de divisiones en tejas de tiempo-frecuencia diferentes se permite al introducir otro paso de fusión de sub-banda/división de sub-banda simétrica que iguala las divisiones en tejas de tiempo-frecuencia de las dos tramas. Después de igualar las divisiones en tejas, puede aplicarse la reducción de solapamiento en el dominio del tiempo y pueden reconstruirse las divisiones en tejas originales.
Los modos de realización proporcionan un banco de filtros de Reducción de Solapamiento en el Dominio del Tiempo Conmutado (STDAR) con St Da R unilateral o bilateral.
En modos de realización, los parámetros de STDAR pueden derivarse de parámetros de longitud de MDCT (por ejemplo, parámetros del factor de fusión (MF). Por ejemplo, cuando se utiliza STDAR unilateral, se puede transmitir 1 bit por factor de fusión. Este bit puede señalar si el factor de fusión o la tramamom - 1se utiliza para la STDAR. De manera alternativa, la transformación puede efectuarse siempre hacia el factor de fusión más alto. En este caso, el bit puede omitirse.
En modos de realización, se puede efectuar el procesamiento conjunto de canales, por ejemplo M/S o herramienta de codificación multicanal (MCT) [10]. Por ejemplo, algunos o todos los canales pueden ser transformados en base a STDAR bilateral hacia el mismo diseño de t Da R y ser procesados conjuntamente. Factores variables, tales como 2, 8, 1,2, 16, 32 presumiblemente no son tan probables como los factores uniformes, tales como 4, 4, 8, 8, 16, 16. Esta correlación puede ser explotada para reducir la cantidad de datos requerida, por ejemplo, por medio de codificación diferencial.
En modos de realización, se pueden transmitir menos factores de fusión, donde los factores de fusión omitidos pueden ser derivados o interpolados a partir de factores de fusión vecinos. Por ejemplo, si los factores de fusión son realmente tan uniformes como se describió en el párrafo anterior, todos los factores de fusión pueden ser interpolados en base a unos cuantos factores de fusión.
En modos de realización, el factor de STDAR bilateral puede ser señalado en el flujo de bits. Por ejemplo, se requiere que algunos bits en el flujo de bits señalen el factor de STDAR que describe el límite de trama actual. Estos bits pueden ser codificados por entropía. Adicionalmente, esos bits pueden ser codificados entre sí.
Otros modos de realización proporcionan un procesador de audio para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio. El procesador de audio comprende una etapa de transformada muestreada críticamente solapada en cascada y una etapa de reducción de solapamiento en el dominio del tiempo. La etapa de transformada muestreada críticamente solapada en cascada está configurada para efectuar una transformada muestreada críticamente solapada en cascada sobre al menos dos bloques de muestras de la señal de audio que se solapan parcialmente, para obtener un conjunto de muestras de sub-banda en base a un primer bloque de muestras de la señal de audio y para obtener un conjunto correspondiente de muestras de sub-banda en base a un segundo bloque de muestras de la señal de audio. La etapa de reducción de solapamiento en el dominio del tiempo está configurada para efectuar una combinación ponderada de dos conjuntos correspondientes de muestras de sub banda, uno obtenido en base al primer bloque de muestras de la señal de audio y uno obtenido en base al segundo bloque de muestras de la señal de audio, para obtener una representación en sub-bandas de solapamiento reducido de la señal de audio.
Otros modos de realización proporcionan un procesador de audio para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio. El procesador de audio comprende una etapa de reducción de solapamiento en el dominio del tiempo inversa y una etapa de transformada muestreada críticamente solapada inversa en cascada. La etapa de reducción de solapamiento en el dominio del tiempo inversa está configurada para efectuar una combinación ponderada (y desplazada) de dos representaciones de sub-banda de solapamiento reducido correspondientes (de bloques diferentes de muestras que se solapan parcialmente) de la señal de audio, para obtener una representación en sub-bandas solapada, donde la representación en sub-bandas solapada es un conjunto de muestras de sub-banda. La etapa de transformada muestreada críticamente solapada inversa en cascada está configurada para efectuar una transformada muestreada críticamente solapada inversa en cascada sobre el conjunto de muestras de sub-banda, para obtener un conjunto de muestras asociado a un bloque de muestras de la señal de audio.
Según el concepto de la presente invención, una etapa de post-procesamiento adicional es añadida al canal de la transformada muestreada críticamente solapada (por ejemplo, MDCT), donde la etapa de post-procesamiento adicional comprende otra transformada muestreada críticamente solapada (por ejemplo, MDCT) a lo largo del eje de frecuencia y una reducción de solapamiento en el dominio del tiempo a lo largo de cada eje de tiempo de sub-banda. Esto permite extraer escalas de frecuencia arbitrarias del espectrograma de transformada muestreada críticamente solapada (por ejemplo, MDCT) con una compacidad temporal mejorada de la respuesta de impulso, sin introducir a la vez una redundancia adicional y un retraso de trama de transformada muestreada críticamente solapada reducido.
Otros modos de realización proporcionan un método para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio. El método comprende el hecho de
- efectuar una transformada muestreada críticamente solapada en cascada sobre al menos dos bloques de muestras que se solapan parcialmente de la señal de audio, para obtener un conjunto de muestras de subbanda en base a un primer bloque de muestras de la señal de audio y para obtener un conjunto correspondiente de muestras de sub-banda en base a un segundo bloque de muestras de la señal de audio; y
- efectuar una combinación ponderada de dos conjuntos de muestras de sub-banda correspondientes, uno obtenido en base al primer bloque de muestras de la señal de audio y uno obtenido en base al segundo bloque de muestras de la señal de audio, para obtener una representación en sub-bandas de solapamiento reducido de la señal de audio.
Otros modos de realización proporcionan un método para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio. El método comprende el hecho de:
- efectuar una combinación ponderada (y desplazada) de dos representaciones de sub-banda de solapamiento reducido correspondientes (de bloques diferentes de muestras que se solapan parcialmente) de la señal de audio, para obtener una representación en sub-bandas solapada, donde la representación en sub-bandas solapada es un conjunto de muestras de sub-banda; y
- efectuar una transformada muestreada críticamente solapada inversa en cascada sobre el conjunto de muestras de sub-banda, para obtener un conjunto de muestras asociadas a un bloque de muestras de la señal de audio.
Implementaciones ventajosas son abordadas en las reivindicaciones dependientes.
A continuación son descritas implementaciones ventajosas del procesador de audio para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio.
En modos de realización, la etapa de transformada muestreada críticamente solapada en cascada puede ser una etapa de MDCT en cascada (MDCT = transformada de coseno discreta modificada), MDST (MDST = transformada sinusoidal discreta modificada) o MLT (MLT = transformación con solapamiento modulada).
En modos de realización, la etapa de transformada muestreada críticamente solapada en cascada puede comprender una primera etapa de transformada muestreada críticamente solapada configurada para efectuar transformadas muestreadas críticamente solapadas sobre un primer bloque de muestras y un segundo bloque de muestras de los al menos dos bloques de muestras solapados parcialmente de la señal de audio, para obtener un primer conjunto de bines para el primer bloque de muestras y un segundo conjunto de bines (coeficientes muestreados críticamente solapados) para el segundo bloque de muestras.
La primera etapa de transformada muestreada críticamente solapada puede ser una primera etapa de MDCT, MDST o MLT.
La etapa de transformada muestreada críticamente solapada en cascada puede comprender además una segunda etapa de transformada muestreada críticamente solapada configurada para efectuar una transformada muestreada críticamente solapada sobre un segmento (subconjunto apropiado) del primer conjunto de bines y para efectuar una transformada muestreada críticamente solapada sobre un segmento (subconjunto apropiado) del segundo conjunto de bines, donde cada segmento es asociado a una sub-banda de la señal de audio, para obtener un conjunto de muestras de sub-banda para el primer conjunto de bines y un conjunto de muestras de sub-banda para el segundo conjunto de bines.
La segunda etapa de transformada muestreada críticamente solapada puede ser una segunda etapa de MDCT, MDST o MLT.
Así, las primera y segunda etapas de transformada muestreada críticamente solapada pueden ser del mismo tipo, es decir una de las etapas de MDCT, MDST o MLT.
En modos de realización, la segunda etapa de transformada muestreada críticamente solapada puede estar configurada para efectuar transformadas muestreadas críticamente solapadas sobre al menos dos segmentos (subconjuntos apropiados) que se solapan parcialmente del primer conjunto de bines y para efectuar transformadas muestreadas críticamente solapadas sobre al menos dos segmentos (subconjuntos apropiados) que se solapan parcialmente del segundo conjunto de bines, donde cada segmento es asociado a una sub-banda de la señal de audio, para obtener al menos dos conjuntos de muestras de sub-banda para el primer conjunto de bines y al menos dos conjuntos de muestras de sub-banda para el segundo conjunto de bines.
Así, el primer conjunto de muestras de sub-banda puede ser un resultado de una primera transformada muestreada críticamente solapada en base al primer segmento del primer conjunto de bines, donde un segundo conjunto de muestras de sub-banda puede ser un resultado de una segunda transformada muestreada críticamente solapada en base al segundo segmento del primer conjunto de bines, donde un tercer conjunto de muestras de sub-banda puede ser un resultado de una tercera transformada muestreada críticamente solapada en base al primer segmento del segundo conjunto de bines, donde un cuarto conjunto de muestras de sub-banda puede ser un resultado de una cuarta transformada muestreada críticamente solapada en base al segundo segmento del segundo conjunto de bines. La etapa de reducción de solapamiento en el dominio del tiempo puede estar configurada para efectuar una combinación ponderada del primer conjunto de muestras de sub-banda y el tercer conjunto de muestras de sub-banda, para obtener una primera representación en sub-bandas de solapamiento reducido de la señal de audio y para efectuar una combinación ponderada del segundo conjunto de muestras de sub-banda y del cuarto conjunto de muestras de sub banda, para obtener una segunda representación en sub-bandas de solapamiento reducido de la señal de audio.
En modos de realización, la etapa de transformada muestreada críticamente solapada en cascada puede estar configurada para segmentar un conjunto de bines obtenido en base al primer bloque de muestras mediante al menos dos funciones de ventana y para obtener al menos dos conjuntos de muestras de sub-banda en base al conjunto segmentado de bines que corresponde al primer bloque de muestras, donde la etapa de transformada muestreada críticamente solapada en cascada puede estar configurada para segmentar un conjunto de bines obtenido en base al segundo bloque de muestras mediante las al menos dos funciones de ventana y para obtener al menos dos conjuntos de muestras de sub-banda en base al conjunto segmentado de bines que corresponde al segundo bloque de muestras, donde las al menos dos funciones de ventana comprenden un ancho de ventana diferente.
En modos de realización, la etapa de transformada muestreada críticamente solapada en cascada puede estar configurada para segmentar un conjunto de bines obtenido en base al primer bloque de muestras mediante al menos dos funciones de ventana y para obtener al menos dos conjuntos de muestras de sub-banda en base al conjunto segmentado de bines que corresponde al primer bloque de muestras, donde la etapa de transformada muestreada críticamente solapada en cascada puede estar configurada para segmentar un conjunto de bines obtenido en base al segundo bloque de muestras mediante las al menos dos funciones de ventana y para obtener al menos dos conjuntos de muestras de sub-banda en base al conjunto segmentado de bines que corresponde al segundo bloque de muestras, donde las pendientes de filtro de las funciones de ventana que corresponden a conjuntos adyacentes de muestras de sub-banda son simétricas.
En modos de realización, la etapa de transformada muestreada críticamente solapada en cascada puede estar configurada para segmentar las muestras de la señal de audio en el primer bloque de muestras y el segundo bloque de muestras mediante una primera función de ventana, donde la etapa de transformada muestreada críticamente solapada puede estar configurada para segmentar un conjunto de bines obtenido en base al primer bloque de muestras y un conjunto de bines obtenido en base al segundo bloque de muestras mediante una segunda función de ventana, para obtener las muestras de sub-banda correspondientes, donde la primera función de ventana y la segunda función de ventana comprenden un ancho de ventana diferente.
En modos de realización, la etapa de transformada muestreada críticamente solapada en cascada puede estar configurada para segmentar las muestras de la señal de audio en el primer bloque de muestras y el segundo bloque de muestras mediante una primera función de ventana, donde la etapa de transformada muestreada críticamente solapada puede estar configurada para segmentar un conjunto de bines obtenido en base al primer bloque de muestras y un conjunto de bines obtenido en base al segundo bloque de muestras mediante una segunda función de ventana, para obtener las muestras de sub-banda correspondientes, donde un ancho de ventana de la primera función de ventana y un ancho de ventana de la segunda función de ventana son diferentes entre sí, donde el ancho de ventana de la primera función de ventana y el ancho de ventana de la segunda función de ventana difieren entre sí de un factor diferente de una potencia de dos.
A continuación se describen implementaciones ventajosas del procesador de audio para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio.
En modos de realización, la etapa de transformada muestreada críticamente solapada en cascada inversa puede ser una etapa de MDCT en cascada inversa (MDCT = transformación de coseno discreta modificada), MDST (MDST = transformación sinusoidal discreta modificada) o MLT (MLT = transformación solapada modulada).
En modos de realización, la etapa de transformada muestreada críticamente solapada inversa en cascada puede comprender una primera etapa de transformada muestreada críticamente solapada inversa configurada para efectuar una transformada muestreada críticamente solapada inversa sobre el conjunto de muestras de sub-banda, para obtener un conjunto de bines asociado a una sub-banda dada de la señal de audio.
La primera etapa de transformada muestreada críticamente solapada inversa puede ser una primera etapa de MDCT, MDST o MLT inversa.
En modos de realización, la etapa de transformada muestreada críticamente solapada inversa en cascada puede comprender una primera etapa de solapamiento y adición configurada para efectuar una concatenación de un conjunto de bines asociado a una pluralidad de sub-bandas de la señal de audio, que comprende una combinación ponderada del conjunto de bines asociado a la sub-banda dada de la señal de audio con un conjunto de bines asociado a otra sub-banda de la señal de audio, para obtener un conjunto de bines asociado a un bloque de muestras de la señal de audio.
En modos de realización, la etapa de transformada muestreada críticamente solapada inversa en cascada puede comprender una segunda etapa de transformada muestreada críticamente solapada inversa configurada para efectuar una transformada muestreada críticamente solapada inversa sobre el conjunto de bines asociado al bloque de muestras de la señal de audio, para obtener un conjunto de muestras asociadas al bloque de muestras de la señal de audio.
La segunda etapa de transformada muestreada críticamente solapada inversa puede ser una segunda etapa de MDCT, MDST o MLT inversa.
Así, las primera y segunda etapas de transformada muestreada críticamente solapada inversa pueden ser del mismo tipo, es decir una de las etapas de MDCT, MDST o MLT inversa.
En modos de realización, la etapa de transformada muestreada críticamente solapada inversa en cascada puede comprender una segunda etapa de solapamiento y adición configurada para solapar y añadir el conjunto de muestras asociadas al bloque de muestras de la señal de audio y otro conjunto de muestras asociadas a otro bloque de muestras de la señal de audio, donde el bloque de muestras y otro bloque de muestras de la señal de audio se solapan parcialmente, para obtener la señal de audio.
Los modos de realización de la presente invención son descritos aquí con referencia a las Figuras en anexo.
La Figura 1 muestra un diagrama de bloques esquemático de un procesador de audio configurado para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio;
La Figura 2 muestra un diagrama de bloques esquemático de un procesador de audio configurado para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio;
La Figura 3 muestra un diagrama de bloques esquemático de un procesador de audio configurado para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio;
La Figura 4 muestra un diagrama de bloques esquemático de un procesador de audio para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio;
La Figura 5 muestra un diagrama de bloques esquemático de un procesador de audio para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio;
La Figura 6 muestra un diagrama de bloques esquemático de un procesador de audio para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio;
La Figura 7 muestra en diagramas un ejemplo de muestras de sub-banda (gráfico superior) y la dispersión de sus muestras en el tiempo y en frecuencia (gráfico inferior);
La Figura 8 muestra en un diagrama la incertidumbre espectral y temporal obtenida por varias transformadas diferentes;
La Figura 9 muestra en diagramas una comparación de dos ejemplos de respuestas de impulso generadas por fusión de sub-banda con y sin TDAR, bloques cortos de MDCT simples y fusión de sub-banda de matriz de Hadamard; La Figura 10 muestra un diagrama de flujo de un método para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio;
La Figura 11 muestra un diagrama de flujo de un método para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio;
La Figura 12 muestra un diagrama de bloques esquemático de un codificador de audio;
La Figura 13 muestra un diagrama de bloques esquemático de un decodificador de audio;
La Figura 14 muestra un diagrama de bloques esquemático de un analizador de audio;
La Figura 15 muestra un diagrama de bloques esquemático de un procesador de audio configurado para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio, según otro modo de realización; La Figura 16 muestra una representación esquemática de la transformada del dominio del tiempo al dominio de la frecuencia efectuada por la etapa de transformada del dominio del tiempo al dominio de la frecuencia en el plano de tiempo-frecuencia;
La Figura 17 muestra un diagrama de bloques esquemático de un procesador de audio configurado para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio, según otro modo de realización;
La Figura 18 muestra un diagrama de bloques esquemático de un procesador de audio para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio, según otro modo de realización;
La Figura 19 muestra una representación esquemática del funcionamiento de STDAR en el plano de tiempofrecuencia;
La Figura 20 muestra en diagramas ejemplos de respuestas de impulso de dos tramas con factor de fusión 8 y 16 antes de la STDAR (parte superior) y después de la STDAR (parte inferior);
La Figura 21 muestra en diagramas el impulso de respuesta y compacidad de respuesta de frecuencia para la coincidencia hacia arriba;
La Figura 22 muestra en diagramas el impulso de respuesta y compacidad de respuesta de frecuencia para la coincidencia hacia abajo;
La Figura 23 muestra un diagrama de flujo de un método para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio, según otro modo de realización; y
La Figura 24 muestra un diagrama de flujo de un método para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio, donde la representación en sub-bandas de la señal de audio comprende conjuntos de muestras con solapamiento reducido, según otro modo de realización.
Los elementos iguales o equivalentes o elementos con funcionalidad igual o equivalentes son designados en la siguiente descripción por números de referencias iguales o equivalentes.
En la descripción que sigue se expone una pluralidad de detalles para proporcionar una explicación más completa de los modos de realización de la presente invención. Sin embargo, será evidente para un experto en la técnica que los modos de realización de la presente invención pueden practicarse sin estos detalles específicos. En otros casos, las estructuras y los dispositivos bien conocidos son mostrados en forma de diagrama de bloques en lugar de en detalle para evitar oscurecer los modos de realización de la presente invención. Además, las características de los distintos modos de realización descritos a continuación pueden combinarse entre sí, a menos que se señale específicamente otra cosa.
Primero, en la sección 1 se describe un banco de filtros ortogonales no uniformes en base a dos MDCT en cascada y reducción de solapamiento en el dominio del tiempo (TDAR) que es capaz de lograr respuestas de impulso que eran compactas tanto en el tiempo como en frecuencia [1]. A continuación, en el segmento 2 se describe la Reducción de Solapamiento en el Dominio del Tiempo Conmutado (STDAR) que permite la TDAR entre dos tramas de divisiones en tejas de tiempo-frecuencia diferentes. Esto se logra al introducir otro paso de fusión de sub-banda/división de sub banda simétrico que iguala las divisiones en tejas de tiempo-frecuencia de las dos tramas. Después de igualar las divisiones en tejas, se aplica la TDAR regular y se reconstruyen las divisiones en tejas originales.
En la descripción que sigue se proporcionan ejemplos útiles para comprender la invención. Estos ejemplos no son englobados en las reivindicaciones. Los modos de realización son descritos en relación con las figuras 15 a 24.
1______Banco de filtros ortogonales no uniformes en base a dos MDCT en cascada y reducción de solapamiento en el dominio del tiempo (TDAR)
La Figura 1 muestra un diagrama de bloques esquemático de un procesador de audio 100 configurado para procesar una señal de audio 102 para obtener una representación en sub-bandas de la señal de audio, según un ejemplo. El procesador de audio 100 comprende una etapa de transformada muestreada críticamente solapada en cascada (LCST) 104 y una etapa de reducción de solapamiento en el dominio del tiempo (TDAR) 106.
La etapa de transformada muestreada críticamente solapada en cascada 104 está configurada para efectuar una transformada muestreada críticamente solapada en cascada sobre al menos dos bloques que se solapan parcialmente 108_1 y 108_2 de muestras de la señal de audio 102, para obtener un conjunto 110_1,1 de muestras de sub-banda en base a un primer bloque 108_1 de muestras (de los al menos dos bloques de muestras que se solapan 108_1 y 108_2) de la señal de audio 102 y para obtener un conjunto correspondiente 110_2,1 de muestras de sub-banda en base a un segundo bloque 108_2 de muestras (de los al menos dos bloques de muestras que se solapan 108_1 y 108_2) de la señal de audio 102.
La etapa de reducción de solapamiento en el dominio del tiempo 104 está configurada para efectuar una combinación ponderada de dos conjuntos correspondientes 110_1,1 y 110_2,1 de muestras de sub-banda (es decir, muestras de sub-banda que corresponden a la misma sub-banda), una obtenida en base al primer bloque 108_1 de muestras de la señal de audio 102 y una obtenida en base al segundo bloque 108_2 de muestras de la señal de audio, para obtener una representación en sub-bandas de solapamiento reducido 112_1 de la señal de audio 102.
La etapa de transformada muestreada críticamente solapada en cascada 104 puede comprender al menos dos etapas de transformada muestreada críticamente solapada en cascadas o, en otras palabras, dos etapas de transformada muestreadas críticamente solapadas conectadas en cascada.
La etapa de transformada muestreada críticamente solapada en cascada puede ser una etapa de MDCT (MDCT = transformación de coseno discreta modificada) en cascada. La etapa de MDCT en cascada puede comprender al menos dos etapas de MDCT.
Naturalmente, la etapa de transformada muestreada críticamente solapada en cascada puede también ser una MDST en cascada (MDST = transformada sinusoidal discreta modificada) o una etapa de MLT (MLT = transformada solapada modulada) que comprende al menos dos etapas respectivamente de MDST o MLT.
Los dos conjuntos correspondientes de muestras de sub-banda 110_1,1 y 110_2,1 pueden ser muestras de sub-banda que corresponden a la misma sub-banda (es decir banda de frecuencia).
La Figura 2 muestra un diagrama de bloques esquemático de un procesador de audio 100 configurado para procesar una señal de audio 102 para obtener una representación en sub-bandas de la señal de audio.
Tal y como se muestra en la Figura 2, la etapa de transformada muestreada críticamente solapada en cascada 104 puede comprender una primera etapa de transformada muestreada críticamente solapada 120 configurada para efectuar transformadas muestreadas críticamente solapadas sobre un primer bloque 108_1 de (2M) muestras (x<i.>-<i>(n), 0 < n < 2M-1) y un segundo bloque 108_2 de (2M) muestras (x<i>(n), 0 < n < 2M-1) de los al menos dos bloques parcialmente solapados 108_1 y 108_2 de muestras de la señal de audio 102, para obtener un primer conjunto 124_1 de (M) bines (coeficientes de LCST) (X<i.>-<i>(k), 0 < k < M-1) para el primer bloque 108_1 de muestras y un segundo conjunto 124_2 de (M) bines (coeficientes de LCST) (Xi(k), 0 < k < M-1) para el segundo bloque 108_2 de muestras.
La etapa de transformada muestreada críticamente solapada en cascada 104 puede comprender una segunda etapa de transformada muestreada críticamente solapada 126 configurada para efectuar una transformada muestreada críticamente solapada sobre un segmento 128_1,1 (subconjunto apropiado) (X<v,i-1>(k)) del primer conjunto 124_1 de bines y para efectuar una transformada muestreada críticamente solapada sobre un segmento 128_2,1 (subconjunto apropiado) (X<v,i>(k)) del segundo conjunto 124_2 de bines, donde cada segmento es asociado a una sub-banda de la señal de audio 102, para obtener un conjunto 110_1,1 de muestras de sub-banda [y<v,i->-<i>(m)] para el primer conjunto 124_1 de bines y un conjunto 110_2,1 de muestras de sub-banda (y<v,i>(m)) para el segundo conjunto 124_2 de bines.
La Figura 3 muestra un diagrama de bloques esquemático de un procesador de audio 100 configurado para procesar una señal de audio 102 para obtener una representación en sub-bandas de la señal de audio. En otras palabras, La Figura 3 muestra un diagrama del banco de filtros de análisis. Así, se asumen funciones de ventana apropiadas. Obsérvese que, por razones de simplicidad, en la Figura 3 (únicamente) se indica el procesamiento de una primera mitad de una trama de sub-banda (y[m], 0 <= m < N/2) (es decir sólo la primera línea de la ecuación (6)).
Tal y como se muestra en la Figura 3, la primera etapa de transformada muestreada críticamente solapada 120 puede estar configurada para efectuar una primera transformada muestreada críticamente solapada 122_1 (por ejemplo, MDCT i-1) sobre el primer bloque 108_1 de (2M) muestras (x<i.>-<i>(n), 0 < n < 2M-1), para obtener el primer conjunto 124_1 de (M) bines (coeficientes de LCST) (X<i.>-<i>(k), 0 < k < M-1) para el primer bloque 108_1 de muestras y para efectuar una segunda transformada muestreada críticamente solapada 122_2 (por ejemplo, MDCT i) sobre el segundo bloque 108_2 de (2M) muestras (x<i>(n), 0 < n < 2M-1), para obtener un segundo conjunto 124_2 de (M) bines (coeficientes de LCST) (Xi(k), 0 < k < M-1) para el segundo bloque 108_2 de muestras.
En detalle, la segunda etapa de transformada muestreada críticamente solapada 126 puede estar configurada para efectuar transformadas muestreadas críticamente solapadas sobre al menos dos segmentos que se solapan parcialmente 128_1,1 y 128_1,2 (subconjuntos apropiados) (X<v,i-1>(k)) del primer conjunto 124_1 de bines y para efectuar transformadas muestreadas críticamente solapadas sobre al menos dos segmentos que se solapan parcialmente 128_2,1 y 128_2,2 (subconjuntos apropiados) (X<v ,i>(k)) del segundo conjunto de bines, donde cada segmento está asociado a una sub-banda de la señal de audio, para obtener al menos dos conjuntos 110_1,1 y 110_1,2 de muestras de sub-banda (y<v,i-1>(m)) para el primer conjunto 124_1 de bines y al menos dos conjuntos 110_2,1 y 110_2,2 de muestras de sub-banda (y<v,i>(m)) para el segundo conjunto 124_2 de bines.
Por ejemplo, el primer conjunto 110_1,1 de muestras de sub-banda puede ser un resultado de una primera transformada muestreada críticamente solapada 132_1,1 en base al primer segmento 132_1,1 del primer conjunto 124_1 de bines, donde el segundo conjunto 110_1,2 de muestras de sub-banda puede ser un resultado de una segunda transformada muestreada críticamente solapada 132_1,2 en base al segundo segmento 128_1,2 del primer conjunto 124_1 de bines, donde el tercer conjunto 110_2,1 de muestras de sub-banda puede ser un resultado de una tercera transformada muestreada críticamente solapada 132_2,1 en base al primer segmento 128_2,1 del segundo conjunto 124_2 de bines, donde el cuarto conjunto 110_2,2 de muestras de sub-banda puede ser un resultado de una cuarta transformada muestreada críticamente solapada 132_2,2 en base al segundo segmento 128_2,2 del segundo conjunto 124_2 de bines.
Así, la etapa de reducción de solapamiento en el dominio del tiempo 106 puede estar configurada para efectuar una combinación ponderada del primer conjunto 110_1,1 de muestras de sub-banda y del tercer conjunto 110_2,1 de muestras de sub-banda, para obtener una primera representación en sub-bandas de solapamiento reducido 112_1 (yu[m 1]) de la señal de audio, donde la etapa de reducción de solapamiento en el dominio 106 puede estar configurada para efectuar una combinación ponderada del segundo conjunto 110_1,2 de muestras de sub-banda y del cuarto conjunto 110_2,2 de muestras de sub-banda, para obtener una segunda representación en sub-bandas de solapamiento reducido 112_2 (y2,i[m2]) de la señal de audio.
La Figura 4 muestra un diagrama de bloques esquemático de un procesador de audio 200 para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio 102. El procesador de audio 200 comprende una etapa de reducción de solapamiento en el dominio del tiempo inversa (TDAR) 202 y una etapa de transformada muestreada críticamente solapada inversa en cascada (LCST) 204.
La etapa de reducción de solapamiento en el dominio del tiempo inversa 202 está configurada para efectuar una combinación ponderada (y desplazada) de dos representaciones de sub-banda de solapamiento reducido correspondientes 112_1 y 112_2 (yv,i(m) yv,i-1(m)) de la señal de audio 102, para obtener una representación en sub bandas solapada 110_1 (yv,i(m)), donde la representación en sub-bandas solapada es un conjunto 110_1 de muestras de sub-banda.
La etapa de transformada muestreada críticamente solapada inversa en cascada 204 está configurada para efectuar una transformada muestreada críticamente solapada en cascada sobre el conjunto 110_1 de muestras de sub-banda, para obtener un conjunto de muestras asociadas a un bloque 108_1 de muestras de la señal de audio 102.
La Figura 5 muestra un diagrama de bloques esquemático de un procesador de audio 200 para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio 102. La etapa de transformada muestreada críticamente solapada inversa en cascada 204 puede comprender una primera etapa de transformada muestreada críticamente solapada inversa (LCST) 208 y una primera etapa de solapamiento y adición 210.
La primera etapa de transformada muestreada críticamente solapada inversa 208 puede estar configurada para efectuar una transformada muestreada críticamente solapada inversa sobre el conjunto 110_1,1 de muestras de sub banda, para obtener un conjunto 128_1,1 de bines asociado a una sub-banda dada de la señal de audio (Xy,i(k)).
La primera etapa de solapamiento y adición 210 puede estar configurada para efectuar una concatenación de conjuntos de bines asociados a una pluralidad de sub-bandas de la señal de audio, que comprende una combinación ponderada del conjunto 128_1,1 de bines (?v,i(k)) asociado a la sub-banda dada (v) de la señal de audio 102 con un conjunto 128_1,2 de bines (ÁV-i^k)) asociado a otra sub-banda (v-1) de la señal de audio 102, para obtener un conjunto 124_1 de bines asociado a un bloque 108_1 de muestras de la señal de audio 102.
Tal y como se muestra en la Figura 5, la etapa de transformada muestreada críticamente solapada inversa en cascada 204 puede comprender una segunda etapa de transformada muestreada críticamente solapada inversa (LCST) 212 configurada para efectuar una transformada muestreada críticamente solapada inversa sobre el conjunto 124_1 de bines asociado al bloque 108_1 de muestras de la señal de audio 102, para obtener un conjunto 206_1,1 de muestras asociado al bloque 108_1 de muestras de la señal de audio 102.
Además, la etapa de transformada muestreada críticamente solapada inversa en cascada 204 puede comprender una segunda etapa de solapamiento y adición 214 configurada para solapar y adicionar el conjunto 206_1,1 de muestras asociado al bloque 108_1 de muestras de la señal de audio 102 y otro conjunto 206_2,1 de muestras asociado a otro bloque 108_2 de muestras de la señal de audio, donde el bloque 108_1 de muestras y el otro bloque 108_2 de muestras de la señal de audio 102 se solapan parcialmente, para obtener la señal de audio 102.
La Figura 6 muestra un diagrama de bloques esquemático de un procesador de audio 200 para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio 102. En otras palabras, la Figura 6 muestra un diagrama del banco de filtros de síntesis. Así, se asumen funciones de ventana apropiadas. Obsérvese que, por razones de simplicidad, en la Figura 6 se indica (únicamente) el procesamiento de una primera mitad de una trama de sub-banda (y[m], 0 <= m < N/2) (es decir, únicamente la primera línea de la ecuación (6)).
Tal y como se describió más arriba, el procesador de audio 200 comprende una etapa de reducción de solapamiento en el dominio del tiempo inverso 202 y una etapa muestreada críticamente solapada en cascada inversa 204 que comprende una primera etapa muestreada críticamente solapada inversa 208 y una segunda etapa muestreada críticamente solapada inversa 212.
La etapa de reducción en el dominio del tiempo inversa 104 está configurada para efectuar una primera combinación ponderada y desplazada 220_1 de una primera y una segunda representación en sub-bandas de solapamiento reducido y-û m-i] e y-i^ m-i] para obtener una primera representación en sub-bandas solapada 110_1,1 y-iim-i], donde la representación en sub-bandas solapada es un conjunto de muestras de sub-banda, y para efectuar una segunda combinación ponderada y desplazada 220_2 de una tercera y una cuarta representación en sub-bandas de solapamiento reducido y2,i-i[mi] e y2,i[mi] para obtener una segunda representación en sub-bandas solapada 110_2,1 y2,i[mi], donde la representación en sub-bandas solapada es un conjunto de muestras de sub-banda.
La primera etapa de transformada muestreada críticamente solapada inversa 208 está configurada para efectuar una primera transformada muestreada críticamente solapada inversa 222_1 sobre el primer conjunto de muestras de sub banda 110_1,1 y1,i[iTH] para obtener un conjunto 128_1,1 de bines asociado a una sub-banda dada de la señal de audio (?1,-i(k)) y para efectuar una segunda transformada muestreada críticamente solapada inversa 222_2 sobre el segundo conjunto de muestras de sub-banda 110_2,1 y2,i[m-i] para obtener un conjunto 128_2,1 de bines asociado a una sub-banda dada de la señal de audio (X2,-i(k)).
La segunda etapa de transformada muestreada críticamente solapada inversa 212 está configurada para efectuar una transformada muestreada críticamente solapada inversa sobre el conjunto solapado y adicionado de bines obtenido mediante solapamiento y adición de los conjuntos de bines 128_1,1 y 128_21 proporcionados por la primera etapa de transformada muestreada críticamente solapada inversa 208, para obtener el bloque de muestras 108_2.
A continuación son descritos ejemplos de los procesadores de audio mostrados en las Figuras 1 a 6 en los cuales se supone, a modo de ejemplo, que la etapa de transformada muestreada críticamente solapada en cascada 104 es una etapa de MDCT, es decir que las primera y segunda etapas de transformada muestreadas críticamente solapadas 120 y 126 son etapas de MDCT y la etapa de transformada muestreada críticamente solapada en cascada inversa 204 es una etapa de MDCT en cascada inversa, es decir que las primera y segunda etapas de transformada muestreadas críticamente solapadas inversas 120 y 126 son etapas de MDCT inversas. Naturalmente, la descripción que sigue es también aplicable a otros ejemplos de la etapa de transformada muestreada críticamente solapada en cascada 104 y de la etapa de transformada muestreada críticamente solapada inversa 204, tal y como a una etapa de MDST o MLT en cascada o a una etapa de MDST o MLT en cascada inversa.
Así, los ejemplos descritos pueden funcionar sobre una secuencia de espectros de MDCT de longitud limitada y utilizar la MDCT y la reducción de solapamiento en el dominio del tiempo (TDAR) como la operación de fusión de sub-banda. El filtro de bancos no uniforme resultante es solapado, ortogonal y permite anchos de sub-banda k = 2n con neN. Debido a la TDAR, se puede alcanzar una respuesta de impulso de sub-banda tanto temporalmente como espectral más compacta.
A continuación son descritos ejemplos del banco de filtros.
La implementación del banco de filtros se construye directamente sobre esquemas de transformación de MDCT solapados comunes: la transformación original con solapamiento y división en ventanas permanece sin cambio.
Sin pérdida de la generalidad, la siguiente notación supone transformaciones de MDCT ortogonales, por ejemplo, donde las ventanas de análisis y síntesis son idénticas.
x¡(n)=x(n iM) 0 <n <2M(1)
dondek(k,n,M)es el núcleo de la transformada de MDCT yh(n)es una ventana de análisis adecuada
La salida de esa transformaciónX¿(k) se segmenta entonces envsub-bandas de anchos individualesNvy se transforma nuevamente mediante la MDCT. Esto resulta en un banco de filtros con solapamiento tanto en la dirección temporal como en la dirección espectral.
Para simplificar la notación aquí se utiliza un factor de fusión comúnNpara todas las sub-bandas, sin embargo, se puede utilizar cualquier conmutación/secuenciación de MDCT valida para implementar la resolución de tiempofrecuencia deseada. Más sobre el diseño de resolución a continuación.
Xvi(k) =Xi(k vN) 0 < k < 2 N(4)
dondew(k) es una ventana de análisis adecuada y difiere generalmente deh(n)en tamaño y puede diferir en el tipo de ventana. Dado que la ventana es aplicada en el dominio de la frecuencia, cabe mencionar que la selectividad en tiempo y frecuencia de la ventana se intercambian.
Para el manejo apropiado de los bordes se puede introducir una desviación adicional deN/2en la ecuación (4), combinada con mitades de ventana de inicio/parada rectangulares en los bordes. De nuevo, con el propósito de simplificar la notación, esta desviación no ha sido tomada en consideración aquí.
La salidayvi(m)es una lista devvectores de longitudes individualesNvde coeficientes de anchos de banda correspondientes y una resolución temporal proporcional a este ancho de banda.
Estos vectores contienen sin embargo un solapamiento de la transformada de MDCT original y, por consiguiente, muestran una pobre compacidad temporal. Para compensar este solapamiento, la TDAR puede ser facilitada.
Las muestras utilizadas para la TDAR se toman de los dos bloques de muestras de sub-banda adyacentesven la trama de MDCT actual y anterioriei —1. El resultado es un solapamiento reducido en la segunda mitad de la trama anterior y la primera mitad de la segunda trama.
para 0 <m < N/2con
Los coeficientes de TDARav(m), bv(m), cv(m)anddv(m)pueden ser diseñados para minimizar el solapamiento residual. A continuación se introducirá un método de estimación simple en base a la ventana de síntesisg(n).
También cabe notar que siAno es singular, las operaciones (6) y (8) corresponden a un sistema bi-ortogonal. Adicionalmente, sig(n)=h(n)yv(k)=w(k),por ejemplo, ambas MDCT son ortogonales y la matrizAes ortogonal, la canalización de conjunto constituye una transformada ortogonal.
Para calcular la transformada inversa, se efectúa la primera TDAR inversa,
seguida de la MDCT inversa y la cancelación del solapamiento en el dominio del tiempo (TDAC, si bien la cancelación del solapamiento se efectúa aquí a lo largo del eje de frecuencia) debe efectuarse para cancelar el solapamiento producido en la Ecuación 5
Finalmente, la MDCT inicial en la Ecuación 2 se invierte y se efectúa de nuevo la TDAC
Í YM ~ 1
Xi (n) =V<a>7Xi{k)K(n, k, M)O< n <2M
k =o (12)
X i ( n ) = g(n+M ) x i_ 1(n+M )+g(n)xi(n)(13)
x(n+ ¿M ) =Xi(n)(14)
A continuación son descritas las limitaciones del diseño de resolución en el dominio de tiempo-frecuencia. Si bien cualquier resolución en el dominio de tiempo-frecuencia deseada es posible, hay que adherirse a algunas restricciones para diseñar las funciones de ventana resultantes para asegurar la posibilidad de inversión. En particular, las pendientes de dos sub-bandas adyacentes pueden ser simétricas de modo que la Ecuación (6) cumpla con la condición de Princen Bradley [J. Princen, A. Johnson, y A. Bradley, “Subband/transform coding using filter bank designs based on time domain aliasing cancellation,” en Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP '87., Abril de 1987, vol. 12, páginas 2161-2164]. El esquema de conmutación de ventana tal y como introducido en [B. Edler, “Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen,” Frequenz, vol. 43, páginas 252-256, Septiembre de 1989], diseñado originalmente para combatir efectos de pre-eco, puede aplicarse aquí. Véase [Olivier Derrien, Thibaud Necciari, y Peter Balazs, “A quasiorthogonal, invertible, and perceptually relevant time-frequency transform for audio coding,” en EUSIPCO, Niza, Francia, Agosto de 2015.].
En segundo lugar, la suma de todas las segundas longitudes de transformada de MDCT debe sumarse a la longitud total de los coeficientes de MDCT proporcionados. Las bandas pueden ser elegidas para no ser transformadas mediante una ventana de paso unitario con ceros en los coeficientes deseados. Se deben no obstante cuidar las propiedades de simetría de las ventanas vecinas [B. Edler, “Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen,” Frequenz, vol. 43, páginas 252-256, Septiembre de 1989.]. La transformada resultante producirá ceros en estas bandas de modo que los coeficientes originales pueden ser utilizados directamente.
Como un posible factor de escala de resolución en el dominio de tiempo-frecuencia, se pueden usar directamente bandas de la mayoría de los codificadores de audio modernos.
A continuación se describe el cálculo de los coeficientes de reducción de solapamiento en el dominio de tiempo (TDAR).
Después de la resolución temporal mencionada anteriormente, cada muestra de sub-banda corresponde aM/Nvmuestras originales o un intervalo deNvveces el tamaño de aquel de una muestra original.
Además, la cantidad de solapamiento en cada muestra de sub-banda depende de la cantidad de solapamiento en el intervalo que representa. Dado que el solapamiento es ponderado con la ventana de análisish(n),se supone que el uso de un valor aproximado de la ventana de síntesis en cada intervalo de muestra de sub-banda es una primera buena estimación para un coeficiente de TDAR.
Los experimentos han mostrado que dos esquemas de cálculo de coeficientes muy simples permiten buenos valores iniciales con compacidad tanto temporal como espectral mejorada. Ambos métodos se basan en una hipotética ventana de síntesisgv(m)de longitud 2Nv.
1) Para ventanas paramétricas como la Derivada Sinusoidal o de Kaiser Bessel, se puede definir una ventana simple más corta del mismo tipo.
2) Para ventanas tanto paramétricas como tabuladas sin representación cerrada, la ventana puede simplemente ser cortada en 2Nvsegmentos del mismo tamaño, lo que permite que los coeficientes se obtengan mediante el valor medio de cada segmento:
Tomando en consideración las condiciones límites de MDCT y la duplicación del solapamiento, esto produce entonces los coeficientes de TDAR
av (m)=gv (N/2 m)(16)
bv(m) = - g v(N/2 - 1 - m)(17)
cv(m) = gv(3N/2 m)(18)dv( m ) = gv( 3 N / 2 - 1 - m )(19)
o en el caso de una transformación ortogonal
av(m)=dv(m) = gv(N/2 m)(20)
- b v(m) = cv(m) = ^1 - av(m)2.(21)
Sea cual sea la solución de aproximación de coeficiente que se elija, siempre y cuandoAno sea singular, se conserva una perfecta reconstrucción de todo el banco de filtros. Una selección de coeficientes en otras circunstancias sub óptima únicamente afectará la cantidad de solapamiento residual en la señal de sub-bandayVi¡(m),sin embargo no en la señalx(n)sintetizada por el banco de filtros inverso.
La Figura 7 muestra en diagramas un ejemplo de muestras de sub-banda (gráfico superior) y la dispersión de sus muestras en el tiempo y en frecuencia (gráfico inferior). La muestra anotada presenta un ancho de banda más ancho, pero una dispersión en el tiempo más corta que las muestras inferiores. Las ventanas de análisis (gráfico inferior) presentan una resolución completa de un coeficiente por muestra en el tiempo original. Los coeficientes de TDAR deben por lo tanto ser aproximados (anotado por un punto) para cada región de tiempo de las muestras de sub-banda (m = 256 : : : 384).
A continuación se describen los resultados (simulación).
La Figura 8 muestra la incertidumbre espectral y temporal obtenida por varias transformadas diferentes, tal y como se muestra en [Frederic Bimbot, Ewen Camberlein, y Pierrick Philippe, “Adaptive filter banks using fixed size mdct and subband merging for audio coding-comparison with the mpeg aac filter banks,” en Audio Engineering Society Convention 121, Octubre de 2006.].
Podemos ver que las transformadas en base a la matriz de Hadamard ofrecen capacidades de compensación tiempofrecuencia severamente limitadas. Para los tamaños de fusión crecientes, la resolución temporal adicional viene con un costo desproporcionadamente alto en incertidumbre espectral.
En otras palabras, la Figura 8 muestra una comparación de compacidad de energía espectral y temporal de diferentes transformadas. Las etiquetas en línea designan longitudes de trama para la MDCT, factores de división para la División de Heisenberg y factores de fusión para todos los demás factores.
La Fusión de sub-banda con TDAR sin embargo presenta una compensación lineal entre la incertidumbre temporal y espectral, paralela a una MDCT uniforme plana. El producto de las dos es constante, aunque un poco más alto que aquel de la MDCT uniforme plana. Para este análisis una ventana de análisis Sinusoidal y una ventana de fusión de sub-banda Derivada de Kaiser Bessel mostraron los resultados más compactos y así se eligieron.
Sin embargo, el uso de la TDAR para un factor de fusiónNv = 2parece disminuir la compacidad tanto temporal como espectral. Atribuimos esto al esquema de cálculo de coeficientes inducido en la Sección II-B que es demasiado simple y no aproxima de manera apropiada los valores para las pendientes pronunciadas de función de ventana. En una siguiente publicación se presentará un esquema de optimización numérica.
Estos valores de compacidad se calcularon mediante el centro de gravedad cog y la longitud efectiva al cuadradoi^ ffde la respuesta de impulsox[n],definida como [Athanasios Papoulis, Signal analysis, Electrical and electronic engineering series. McGraw-Hill, New York, San Francisco, Paris, 1977.]
Se muestran los valores de promedio de todas las respuestas de impulso de cada banco de filtros individual.
La Figura 9 muestra una comparación de dos ejemplos de respuestas de impulso generadas por la fusión de sub banda con y sin TDAR, bloques cortos de MDCT simples y fusión de sub-banda de matriz de Hadamard, tal y como se propone en [O.A. Niamut and R. Heusdens, “Flexible frequency decompositions for cosine-modulated filter banks,” en Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP '03). 2003 IEEE International Conference on, Abril de 2003, vol. 5, páginas V-449-52 vol.5.].
La pobre compacidad temporal de la transformada por fusión de la matriz de Hadamard es claramente visible. También puede verse claramente que la mayoría de los artefactos de solapamiento en la sub-banda son significativamente reducidos por la TDAR.
En otras palabras, la Figura 9 muestra un ejemplo de respuestas de impulso de un filtro de sub-banda fusionado que comprende 8 de 1024 bines originales mediante el método propuesto aquí sin TDAR, con TDAR, el método propuesto en [O.A. Niamut y R. Heusdens, “Subband merging in cosine-modulated filter banks,” Signal Processing Letters, IEEE, vol. 10, no. 4, páginas 111-114, Abril de 2003.] y mediante una longitud de trama de MDCT más corta de 256 muestras.
La Figura 10 muestra un diagrama de flujo de un método 300 para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio. El método 300 comprende un paso 302 que consiste en efectuar una transformada muestreada críticamente solapada en cascada sobre al menos dos bloques de muestras que se solapan parcialmente de la señal de audio, para obtener un conjunto de muestras de sub-banda en base a un primer bloque de muestras de la señal de audio y para obtener un conjunto correspondiente de muestras de sub-banda en base a un segundo bloque de muestras de la señal de audio. Además, el método 300 comprende un paso 304 que consiste en efectuar una combinación ponderada de dos conjuntos correspondientes de muestras de sub-banda, uno obtenido en base al primer bloque de muestras de la señal de audio y uno obtenido en base al segundo bloque de muestras de la señal de audio, para obtener una representación en sub-bandas de solapamiento reducido de la señal de audio.
La Figura 11 muestra un diagrama de flujo de un método 400 para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio. El método 400 comprende un paso 402 que consiste en efectuar una combinación ponderada (y desplazada) de dos representaciones de sub-banda de solapamiento reducido correspondientes (de diferentes bloques de muestras que se solapan parcialmente) de la señal de audio, para obtener una representación en sub-bandas solapada, donde la representación en sub-bandas solapada es un conjunto de muestras de sub-banda. Además, el método 400 comprende un paso 404 que consiste en efectuar una transformada muestreada críticamente solapada inversa en cascada sobre el conjunto de muestras de sub-banda, para obtener un conjunto de muestras asociado a un bloque de muestras de la señal de audio.
La Figura 12 muestra un diagrama de bloques esquemático de un codificador de audio 150. El codificador de audio 150 comprende un procesador de audio (100) tal como descrito más arriba, un codificador 152 configurado para codificar la representación en sub-bandas de solapamiento reducido de la señal de audio, para obtener una representación en sub-bandas de solapamiento reducido codificada de la señal de audio y un formador de flujo de bits 154 configurado para formar un flujo de bits 156 a partir de la representación en sub-bandas de solapamiento reducido codificada de la señal de audio.
La Figura 13 muestra un diagrama de bloques esquemático de un decodificador de audio 250. El decodificador de audio 250 comprende un analizador de flujo de bits 252 configurado para analizar el flujo de bits 154, para obtener la representación en sub-bandas de solapamiento reducido codificada, un decodificador 254 configurado para decodificar la representación en sub-bandas de solapamiento reducido codificada, para obtener la representación en sub-bandas de solapamiento reducido de la señal de audio y un procesador de audio 200 tal como descrito más arriba.
La Figura 14 muestra un diagrama de bloques esquemático de un analizador tal como descrito más arriba, un extractor de información 182, configurado para analizar la representación en sub-bandas de solapamiento reducido, para proporcionar una información que describe la señal de audio.
Los ejemplos proporcionan la reducción de solapamiento en el dominio del tiempo (TDAR) en sub-bandas de bancos de filtros de transformada de coseno discreta modificada (MDCT) ortogonales no uniformes.
Los ejemplos añaden un paso de post-procesamiento adicional a la canalización de transformada de MDCT ampliamente utilizada, donde el paso en sí comprende únicamente otra transformación de MDCT solapada a lo largo del eje de frecuencia y una reducción de solapamiento en el dominio del tiempo (TDAR) a lo largo de cada eje de tiempo de sub-banda, lo que permite extraer escalas de frecuencia arbitrarias del espectrograma de MDCT con una compacidad temporal mejorada de la respuesta de impulso, sin introducir redundancia adicional y únicamente un retraso de trama de MDCT.
2 ______Divisiones en Tejas de Tiempo-Frecuencia Variables en el Tiempo Mediante Bancos de Filtros Ortogonales No Uniformes en Base a Análisis/Síntesis de MDCT y TDAR
La Figura 15 muestra un diagrama de bloques esquemático de un procesador de audio 100 configurado para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio, según un modo de realización adicional. El procesador de audio 100 comprende la etapa de transformada muestreada críticamente solapada en cascada (LCST) 104 y la etapa de reducción de solapamiento en el dominio del tiempo (TDAR) 106, ambas descritas en detalle más arriba en la sección 1.
La etapa de transformada muestreada críticamente solapada en cascada 104 comprende la primera etapa de transformada muestreada críticamente solapada (LCST) 120 configurada para efectuar las LCST (por ejemplo, MDCT) 122_1 y 122_2 respectivamente sobre el primer bloque 108_1 de muestras y el segundo bloque 108_2 para obtener el primer conjunto 124_1 de bines para el primer bloque 108_1 de muestras y el segundo conjunto 124_2 de bines para el segundo bloque 108_2 de muestras. Además, la etapa de transformada muestreada críticamente solapada en cascada 104 comprende la segunda etapa de transformada muestreada críticamente solapada (LCST) 126 configurada para efectuar las LCST (por ejemplo, MDCT) 132_1,1-132_1,2 sobre conjuntos segmentados 128_1,1-128_1,2 de bines del primer conjunto 124_1 de bines y las LCST (por ejemplo, MDCT) 132_2,1-132_2,2 sobre conjuntos segmentados 128_2,1-128_2,2 de bines del segundo conjunto 124_1 de bines, para obtener los conjuntos 110_1,1-110_1,2 de muestras de sub-banda que se basan en el primer bloque 108_1 de muestras y los conjuntos 110_2,1-110_2,2 de muestras de sub-banda que se basan en el segundo bloque 108_1 de muestras.
Tal y como ya se indicó en la parte de introducción, la etapa de reducción de solapamiento en el dominio del tiempo (TDAR) 106 puede aplicar únicamente la reducción de solapamiento en el dominio del tiempo (TDAR) si se utilizan divisiones en tejas de tiempo-frecuencia idénticas para el primer bloque 108_1 de muestras y el segundo bloque 108_2 de muestras, es decir si los conjuntos 110_1,1-110_1,2 de muestras de sub-banda que se basan en el primer bloque 108_1 de muestras representan las mismas regiones en un plano de tiempo-frecuencia en comparación con los conjuntos 110_2,1-110_2,2 de muestras de sub-banda que se basan en el segundo bloque 108_2 de muestras.
Sin embargo, si las características de señal de la señal de entrada cambian, las LCST (por ejemplo, MDCT) 132_1,1-132_1,2 utilizadas para procesar los conjuntos segmentados 128_1,1-128_1,2 de bines que se basan en el primer bloque 108_1 de muestras pueden tener longitudes de trama diferentes (por ejemplo, factores de fusión) en comparación con las LCST (por ejemplo, MDCT) 132_2,1-132_2,2 utilizadas para procesar los conjuntos segmentados 128_2,1-128_2,2 de bines que se basan en el segundo bloque 108_2 de muestras.
En este caso, los conjuntos 110_1,1-110_1,2 de muestras de sub-banda que se basan en el primer bloque 108_1 de muestras representan regiones diferentes en un plano de tiempo-frecuencia en comparación con los conjuntos 110_2,1-110_2,2 de muestras de sub-banda que se basan en el segundo bloque 108_2 de muestras, es decir, si el primer conjunto 110_1,1 de muestras de sub-banda representa una región diferente en el plano de tiempo-frecuencia de aquella del tercer conjunto 110_2,1 de muestras de sub-banda y el segundo conjunto 110_1,2 de muestras de sub banda representa una región diferente en el plano de tiempo-frecuencia de aquella del cuarto conjunto 110_2,1 de muestras de sub-banda, la reducción de solapamiento en el dominio del tiempo (TDAR) no puede aplicarse directamente.
Para superar esta limitación, el procesador de audio 100 comprende además una primera etapa de transformada del dominio del tiempo al dominio de la frecuencia 105 configurada para identificar, en el caso de que los conjuntos 110_1,1-110_1,2 de muestras de sub-banda que se basan en el primer bloque 108_1 de muestras representan regiones diferentes en el plano de tiempo-frecuencia en comparación con los conjuntos 110_2,1-110_2,2 de muestras de sub-banda que se basan en el segundo bloque 108_2 de muestras, uno o más conjuntos de muestras de sub banda de los conjuntos 110_1,1-110_1,2 de muestras de sub-banda que se basan en el primer bloque 108_1 de muestras y uno o más conjuntos de muestras de sub-banda de los conjuntos 110_2,1-110_2,2 de muestras de sub banda que se basan en el segundo bloque 108_2 de muestras que, en combinación, representan la misma región en el plano de tiempo-frecuencia, y para transformar del dominio del tiempo al dominio de la frecuencia los uno o más conjuntos de muestras de sub-banda identificados de los conjuntos 110_2,1-110_2,2 de muestras de sub-banda que se basan en el segundo bloque 108_2 de muestras y/o los uno o más conjuntos de muestras de sub-banda identificados de los conjuntos 110_2,1-110_2,2 de muestras de sub-banda que se basan en el segundo bloque 108_2 de muestras, para obtener una o más muestras de sub-banda transformadas del dominio del tiempo al dominio de la frecuencia que representan, cada una, la misma región en el plano de tiempo-frecuencia que una correspondiente de las una o más muestras de sub-banda identificadas, o una o más versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas.
A continuación, la etapa de reducción de solapamiento en el dominio del tiempo 106 puede aplicar la reducción en el dominio del tiempo (TDAR), es decir al efectuar una combinación ponderada de dos conjuntos correspondientes de muestras de sub-banda, o versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas, uno obtenido en base al primer bloque 108_1 de muestras de la señal de audio 102 y uno obtenido en base al segundo bloque 108_2 de muestras de la señal de audio, para obtener representaciones de sub-banda de solapamiento reducido de la señal de audio 102.
En modos de realización, la primera etapa de transformada del dominio del tiempo al dominio de la frecuencia 105 puede estar configurada para transformar del dominio del tiempo al dominio de la frecuencia o bien los uno o más conjuntos de muestras de sub-banda identificados de los conjuntos 110_2,1-110_2,2 de muestras de sub-banda que se basan en el primer bloque 108_1 de muestras, o bien los uno o más conjuntos de muestras de sub-banda identificados de los conjuntos 110_2,1-110_2,2 de muestras de sub-banda que se basan en el segundo bloque 108_2 de muestras, para obtener una o más muestras de sub-banda del dominio del tiempo al dominio de la frecuencia que representan, cada una, la misma región en el plano de tiempo-frecuencia que una correspondiente de las una o más muestras de sub-banda identificadas.
En este caso, la etapa de reducción de solapamiento en el dominio del tiempo 106 puede estar configurada para efectuar una combinación ponderada de un conjunto de muestras de sub-banda transformado tiempo-frecuencia y un conjunto de muestras de sub-banda correspondiente (no transformado tiempo-frecuencia), uno obtenido en base al primer bloque 108_1 de muestras de la señal de audio 102 y uno obtenido en base al segundo bloque 108_2 de muestras de la señal de audio. Esto se denomina aquí STDAR unilateral.
Naturalmente, la primera etapa de transformada del dominio del tiempo al dominio de la frecuencia 105 puede también estar configurada para transformar del dominio del tiempo al dominio de la frecuencia tanto los uno o más conjuntos de muestras de sub-banda identificados de los conjuntos 110_2,1-110_2,2 de muestras de sub-banda que se basan en el primer bloque 108_1 de muestras como los uno o más conjuntos de muestras de sub-banda identificados de los conjuntos 110_2,1-110_2,2 de muestras de sub-banda que se basan en el segundo bloque 108_2 de muestras, para obtener una o más muestras de sub-banda transformadas del dominio del tiempo al dominio de la frecuencia que representan, cada una, la misma región en el plano de tiempo-frecuencia que una correspondiente de las versiones transformadas del dominio del tiempo al dominio de la frecuencia de las otras una o más muestras de sub-banda identificadas.
En este caso, la etapa de reducción de solapamiento en el dominio del tiempo 106 puede estar configurada para efectuar una combinación ponderada de dos conjuntos de muestras de sub-banda transformadas del dominio del tiempo al dominio de la frecuencia correspondientes, uno obtenido en base al primer bloque 108_1 de muestras de la señal de audio 102 y uno obtenido en base al segundo bloque 108_2 de muestras de la señal de audio. Esto es denominado aquí STDAR bilateral.
La Figura 16 muestra una representación esquemática de la transformada del dominio del tiempo al dominio de la frecuencia efectuada por la etapa de transformada del dominio del tiempo al dominio de la frecuencia 105 en el plano de tiempo-frecuencia.
Tal y como indicado en los diagramas 170_1 y 170_2 de la Figura 16, el primer conjunto 110_1,1 de muestras de sub banda que corresponde al primer bloque 108_1 de muestras y el tercer conjunto 110_2,1 de muestras de sub-banda que corresponde al segundo bloque 108_2 de muestras representan regiones diferentes 194_1,1 y 194_2,1 en el plano de tiempo-frecuencia, de modo que la etapa de reducción de solapamiento en el dominio del tiempo 106 no sería capaz de aplicar la reducción de solapamiento en el dominio del tiempo (TDAR) al primer conjunto 110_1,1 de muestras de sub-banda y al tercer conjunto 110_2,1 de muestras de sub-banda.
De manera similar, el segundo conjunto 110_1,2 de muestras de sub-banda que corresponde al primer bloque 108_1 de muestras y el cuarto conjunto 110_2,2 de muestras de sub-banda que corresponde al segundo bloque 108_2 de muestras representan regiones diferentes 194_1,2 y 194_2,2 en el plano de tiempo-frecuencia, de modo que la etapa de reducción de solapamiento en el dominio del tiempo 106 no sería capaz de aplicar la reducción de solapamiento en el dominio del tiempo (TDAR) al segundo conjunto 110_1,2 de muestras de sub-banda y al cuarto conjunto 110_2,2 de muestras de sub-banda.
Sin embargo, el primer conjunto 110_1,1 de muestras de sub-banda en combinación con el segundo conjunto 110_1,2 de muestras de sub-banda representan la misma región 196 en el plano de tiempo-frecuencia que el tercer conjunto 110_2,1 de muestras de sub-banda en combinación con el cuarto conjunto 110_2,2 de muestras de sub-banda.
Así, la etapa de transformada del dominio del tiempo al dominio de la frecuencia 105 puede transformar del dominio del tiempo al dominio de la frecuencia el primer conjunto 110_1,1 de muestras de sub-banda y el segundo conjunto 110_1,2 de muestras de sub-banda o transformar del dominio del tiempo al dominio de la frecuencia el tercer conjunto 110_2,1 de muestras de sub-banda y el cuarto conjunto 110_2,2 de muestras de sub-banda, para obtener conjuntos de muestras de sub-banda transformados del dominio del tiempo al dominio de la frecuencia que representan, cada uno, la misma región en el plano de tiempo-frecuencia que uno correspondiente de los otros conjuntos de muestras de sub-banda.
En la Figura 16 se supone, a modo de ejemplo, que la etapa de transformada del dominio del tiempo al dominio de la frecuencia 105 transforma del dominio del tiempo al dominio de la frecuencia el primer conjunto 110_1,1 de muestras de sub-banda y el segundo conjunto 110_1,2 de muestras de sub-banda, para obtener un primer conjunto transformado del dominio del tiempo al dominio de la frecuencia 110_1,1' de muestras de sub-banda y un segundo conjunto transformado del dominio del tiempo al dominio de la frecuencia 110_1,2' de muestras de sub-banda.
Tal y como indicado en los diagramas 170_3 y 170_4 de la Figura 16, el primer conjunto transformado del dominio del tiempo al dominio de la frecuencia 110_1,1' de muestras de sub-banda y el tercer conjunto 110_2,1 de muestras de sub-banda representan la misma región 194_1,1' y 194_2,1 en el plano de tiempo-frecuencia, de modo que la reducción de solapamiento en el dominio del tiempo (TDAR) puede aplicarse al primer conjunto transformado del dominio del tiempo al dominio de la frecuencia 110_1,1' de muestras de sub-banda y al tercer conjunto 110_2,1 de muestras de sub-banda.
De manera similar, el segundo conjunto transformado del dominio del tiempo al dominio de la frecuencia 110_1,2' de muestras de sub-banda y el cuarto conjunto 110_2,2 de muestras de sub-banda representan la misma región 194_1,2' y 194_2,3 en el plano de tiempo-frecuencia, de modo que la reducción de solapamiento en el dominio del tiempo (TDAR) puede aplicarse al segundo conjunto transformado del dominio del tiempo al dominio de la frecuencia 110_1,2' de muestras de sub-banda y al cuarto conjunto 110_2,2 de muestras de sub-banda.
Si bien en la Figura 16 únicamente el primer conjunto 110_1,1 de muestras de sub-banda y el segundo conjunto 110_1,2 de muestras de sub-banda que corresponden al primer bloque 108_1 de muestras son transformados del dominio del tiempo al dominio de la frecuencia por la primera etapa de transformada del dominio del tiempo al dominio de la frecuencia 105, en modos de realización, también tanto el primer conjunto 110_1,1 de muestras de sub-banda como el segundo conjunto 110_1,2 de muestras de sub-banda que corresponden al primer bloque 108_1 de muestras y el tercer conjunto 110_2,1 de muestras de sub-banda y el cuarto conjunto 110_2,2 de muestras de sub-banda que corresponden al segundo bloque 108_1 de muestras pueden ser transformados del dominio del tiempo al dominio de la frecuencia por la primera etapa de transformada del dominio del tiempo al dominio de la frecuencia 105.
La Figura 17 muestra un diagrama de bloques esquemático de un procesador de audio 100 configurado para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio, según otro modo de realización.
Tal y como mostrado en La Figura 17, el procesador de audio 100 puede comprender además una segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia 107 configurada para transformar del dominio del tiempo al dominio de la frecuencia las representaciones en sub-bandas de solapamiento reducido de la señal de audio, donde una transformada del dominio del tiempo al dominio de la frecuencia aplicada por la segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia es inversa a la transformada del dominio del tiempo al dominio de la frecuencia aplicada por la primera etapa de transformada del dominio del tiempo al dominio de la frecuencia.
La Figura 18 muestra un diagrama de bloques esquemático de un procesador de audio 200 para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio, según otro modo de realización.
El procesador de audio 200 comprende una segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa 201 que es inversa a la segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia 107 del procesador de audio 100 mostrada en la Figura 17. En detalle, la segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa 201 puede estar configurada para transformar del dominio del tiempo al dominio de la frecuencia uno o más conjuntos de muestras de sub-banda de solapamiento reducido de los conjuntos de muestras de sub-banda de solapamiento reducido que corresponden a un primer bloque de muestras de la señal de audio y/o uno o más conjuntos de muestras de sub-banda de solapamiento reducido de los conjuntos de muestras de sub-banda de solapamiento reducido que corresponden a un segundo bloque de muestras de la señal de audio, para obtener una o más muestras de sub-banda de solapamiento reducido transformadas del dominio del tiempo al dominio de la frecuencia que representan, cada una, la misma región en el plano de tiempo-frecuencia que presentan la misma longitud que una correspondiente de las una o más muestras de sub-banda de solapamiento reducido que corresponden al otro boque de muestras de la señal de audio o una o más versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas.
Además, el procesador de audio 200 comprende una etapa de reducción de solapamiento en el dominio del tiempo inversa (ITDAR) 202 configurada para efectuar combinaciones ponderadas de conjuntos correspondientes de muestras de sub-banda de solapamiento reducido o versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas, para obtener una representación en sub-bandas solapada.
Además, el procesador de audio 200 comprende una primera etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa 203 configurada para transformar del dominio del tiempo al dominio de la frecuencia la representación en sub-bandas solapada, para obtener conjuntos 110_1,1-110_1,2 de muestras de sub-banda que corresponden al primer bloque 108_1 de muestras de la señal de audio y conjuntos 110_2,1-110_2,2 de muestras de sub-banda que corresponden al segundo bloque 108_1 de muestras de la señal de audio, donde una transformada del dominio del tiempo al dominio de la frecuencia aplicada por la primera etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa 203 es inversa a la transformada del dominio del tiempo al dominio de la frecuencia aplicada por la segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa 201.
Además, el procesador de audio 200 comprende una etapa de transformada muestreada críticamente solapada en cascada 204 configurada para efectuar una transformada muestreada críticamente solapada en cascada sobre los conjuntos de muestras 110_1,1-110_2,2, para obtener un conjunto 206_1,1 de muestras asociado a un bloque de muestras de la señal de audio 102.
A continuación se describen con mayor detalle modos de realización de la presente invención.
2.1_____ Reducción del Solapamiento en el Dominio del Tiempo
Cuando se expresan transformadas solapadas en notación polifásica, el índice de trama puede expresarse en el<Dominio z, donde>z_1<hace referencia a la trama previa [7]. En esta notación el análisis de MDCT puede expresarse>como
_ (24)
X{z) = DF (z)x{z)
donde D es la matriz de DCT-IV deNxNDCT-IV y F(z) es la matriz de pre-permutación/plegamiento de MDCT deNxN[7].
La fusión de sub-banda M y TDAR R(z) se convierte entonces en otro par de matrices de transformada diagonal por bloques
donde Tk es una a adecuada (una MDCT solapada en lización) y F'(z)k es una variante modificada y más pequeña de F(z) [4], El vector í e N K que contiene los tamaños de las sub-matrices Tk y F'(z)k es denominado diseño de sub-banda. El análisis total se convierte en
(27)
Y(z) = R (z)M DF(z)f(z).
Con el propósito de simplificar, se analiza aquí únicamente el caso especial de divisiones en tejas uniformes en M y R(z), es decir v = [c, ...,c], dondec e{1,2,4,8,16,32}, es fácil ver que los modos de realización no se restringen a estas últimas.
2.2 Reducción del Solapamiento en el Dominio del Tiempo Conmutada
Dado que la STDAR se aplicará entre dos tramas transformadas de manera diferente, en modos de realización la<matriz de fusión de sub-banda M, la matriz de TDAR R(>z<) y el diseño de sub-banda v se extienden a una notación variable en el tiempo M(m), R(>z<,m) y v(m), donde m es el índice de trama [8].>
Por supuesto, la ién extenderse a matrices variables en el tiempo F(z,m) y D(m), sin embargo este escenario no será tomado en consideración aquí.
Si los divisiones en tejas de dos tramas m y m-1 son diferentes, es decir
v{m —1) v{m) (30)
M(m - 1)¿M(m)
se puede<r>—1)^R (^ . m ) diseñar una matriz de transformada adicional S(m) que transforma temporalmente ’ la división en tejas de tiempo-frecuencia de la tramampara coincidir con la división en tejas de trama m-1 (coincidencia hacia atrás). Un resumen general sobre la operación de STDAR puede verse en la Figura 19.
En detalle, la Figura 19 muestra una representación esquemática de la operación de STDAR en el plano de tiempofrecuencia. Tal y como indicado en la Figura 19, conjuntos 110_1,1-110_1,4 de muestras de sub-banda que corresponden al primer bloque 108_1 de muestras (trama m - 1 ) y conjuntos 110_2,1-110_2,4 de muestras de sub banda que corresponden al segundo bloque 108_2 de muestras (trama m) representan regiones diferentes en el plano de tiempo-frecuencia. Por lo tanto, los conjuntos de muestras de sub-banda 110_1,1-110_1,4 que corresponden al primer bloque 108_1 de muestras (tramam - 1 )pueden ser transformados del dominio del tiempo al dominio de la frecuencia, para obtener conjuntos de muestras de sub-banda transformados del dominio del tiempo al dominio de la frecuencia 110_1,1'-110_1,4' que corresponden al primer bloque 108_1 de muestras (trama m - 1 ) que representan, cada una, la misma región en el plano de tiempo-frecuencia que uno correspondiente de los conjuntos 110_2,1 -110_2,4 de muestras de sub-banda que corresponden al segundo bloque 108_2 de muestras (trama m), de modo que TDAR (R(z,m)) pueda ser aplicada tal y como indicado en la Figura 19. A continuación se puede aplicar una transformada del dominio del tiempo al dominio de la frecuencia inversa, para obtener conjuntos de solapamiento reducido 112_1,1-112_1,4 de muestras de sub-banda que corresponden al primer bloque 108_1 de muestras (trama m - 1 ) y conjuntos de solapamiento reducido 112_2,1-112_2,4 de muestras de sub-banda que corresponden al segundo bloque 108_2 de muestras (trama m).
En otras palabras, la Figura 19 muestra la STDAR mediante la coincidencia hacia adelante-arriba. La división en tejas de tiempo-frecuencia de la mitad relevante de la trama m - 1 es modificada para coincidir con aquella de la tramam,después de que se puede aplicar la TDAR, y la división en tejas original se reconstruye. La división en tejas de trama m no se cambia, tal y como indicado por la matriz de identidad l.
Naturalmente, también la trama m - 1 puede ser transformada para coincidir con la división en tejas de tiempofrecuencia de la trama m (coincidencia hacia adelante). En este caso, se considera S(m - 1) en lugar de S(m). Tanto la coincidencia hacia adelante como la coincidencia hacia atrás son simétricas, de modo que sólo se investiga una de las dos operaciones.
Si mediante esta operación se incrementa la resolución en el tiempo por medio de un paso de fusión de sub-bandas, aquí se denomina coincidencia hacia arriba. Si la resolución en el tiempo disminuye por medio de un paso de división en sub-bandas, aquí se denomina coincidencia hacia abajo. Tanto la coincidencia hacia arriba como la coincidencia hacia abajo son evaluadas aquí.
Esta matriz S(m) es de nuevo diagonal por bloques, sin embargo conk ^ K
(31)
y se aplicará antes de la TDAR, y será invertida a continuación.
De este modo, el análisis se convierte en
(32)Y(z) = S1(m)H(z,m)S(m)\l(m)'DF(z)x(z).
Naturalmente, sólo una mitad de cada trama es afectada por la TDAR entre dos tramas, por lo que sólo una mitad de la trama correspondiente necesita ser transformada. Como resultado, la mitad de S(m) puede ser elegida para ser una matriz de identidad.
2.3 Consideraciones Adicionales
Obviamente, se requiere que el orden de respuesta de impulso (es decir, el orden de fila) de cada matriz de transformada coincida con el orden de sus matrices vecinas.
En el caso de la TDAR tradicional, no necesitan tomarse consideraciones especiales, dado que el orden de dos tramas idénticas adyacentes fue siempre igual. Sin embargo, en función de la elección de los parámetros, cuando se introduce la STDAR, el orden de entrada de S(m) de STDAR puede no ser compatible con el orden de salida de la fusión de sub-banda M. En este caso dos o más coeficientes no adyacentes en la memoria son transformados conjuntamente y de este modo necesitan realinearse antes de la operación.
También, el orden de salida de S(m) de STDAR usualmente no es compatible con el orden de entrada de la definición original de R(z,m) de TDAR. De nuevo, la razón se debe a que los coeficientes de una sub-banda no son adyacentes en la memoria.
Tanto el cambio del orden como la cancelación del orden pueden expresarse como matrices de permutación adicionales P y P_1, que son introducidas en la canalización de transformación en los lugares apropiados.
El orden de los coeficientes en estas matrices depende de la operación, diseño de memoria, y de las transformadas utilizadas. Así, no se puede proporcionar una solución general aquí.
Todas las matrices introducidas son ortogonales, de modo que la transformación total siga siendo ortogonal.
2.4 Evaluación
En la evaluación, se consideran DCT-IV y DCT-II para T(m) en S(m), las cuales se utilizan ambas sin solapamiento. Se eligió a modo de ejemplo una longitud de trama de entrada deN =1024. Así, el sistema se analiza para diferentes relaciones de conmutaciónr(m),que es la relación de factor de fusión entre dos tramas, es decir
(33)
De manera similar a cuando se analiza la TDAR, la investigación se concentra sobre la forma y especialmente sobre la compacidad de la respuesta de impulso y la respuesta de frecuencia de la transformada total [4], [9].
2.5 Resultados
La DCT-II produce los mejores resultados, de modo que a continuación focalizamos sobre esta transformada. La coincidencia hacia adelante y hacia atrás son simétrica y producen resultados idénticos, de modo que únicamente se describen los resultados de la coincidencia hacia adelante.
La Figura 20 muestra en diagramas ejemplos de respuesta de impulso de dos tramas con el factor de fusión 8 y 16 antes de la STDAR (parte superior) y después de la STDAR (parte inferior).
En otras palabras, la Figura 20 muestra dos ejemplos de respuesta de impulso de dos tramas con divisiones en tejas de tiempo-frecuencia diferentes, antes y después de la STDAR. Las respuestas de impulso exhiben anchos diferentes debido a su diferencia de factor de fusión —c(m- 1) = 8 yc(m) =16. Después de la STDAR, el solapamiento es visiblemente reducido, pero aún es visible algún solapamiento residual.
La Figura 21 muestra en un diagrama la respuesta de impulso y la compacidad de respuesta de frecuencia para la coincidencia hacia arriba. Las etiquetas en línea designan la longitud de trama para la MDCT uniforme, los factores de fusión para la TDAR y los factores de fusión de tramam - 1y m para una STDAR. Por lo tanto, en la Figura 21, una primera curva 500 designa la TDAR, una segunda curva 502 designa ninguna TDAR, una tercera curva 504 designa una STDAR conc(m) =4, una cuarta curva 506 designa una STDAR conc(m) =8, una quinta curva 508 designa una STDAR conc(m) =16, una sexta curva 510 designa una STDAR conc(m) =32, una séptima curva 512 designa una MDCT y una octava curva 514 designa el límite de Heisenberg.
La Figura 22 muestra en un diagrama el impulso de respuesta y la compacidad de respuesta de frecuencia para la coincidencia hacia abajo. Las rtiquetas en línea designan la longitud de trama para la MDCT uniforme, los factores de fusión para la TDAR y los factores de fusión de tramam - 1ympara la STDAR. Por lo tanto, en la Figura 21 una primera curva 500 designa una TDAR, una segunda curva 502 designa ninguna TDAR, una tercera curva 504 designa una STDAR conc(m) =4, una cuarta curva 506 designa una STDAR conc(m) =8, una quinta curva 508 designa una STDAR conc(m) =16, una sexta curva 510 designa una STDAR conc(m) =32, una séptima curva 512 designa la MDCT y una octava curva 514 designa el límite de Heisenberg.
Así, en las Figuras 21 y 22, la compacidad de la respuesta de impulso mediaa¡-y la compacidad de respuesta de frecuenciaaf[3], [9] de una amplia variedad de bancos de filtros para la coincidencia hacia arriba y hacia abajo, respectivamente. Para la comparación de línea de base se muestran una MDCT uniforme así como la fusión de sub banda con y sin TDAR [3], [4] mediante las curvas 512, 500 y 502. Los bancos de filtros de STDAR son mostrados mediante las curvas 504, 506, 508 y 510. Cada línea representa todos los bancos de filtros con el mismo factor de fusiónc.Las etiquetas en línea para cada punto de datos designan los factores de fusión de las tramasm - 1y m.
En la Figura 21, la tramam - 1es transformada para coincidir con la división en tejas de la Trama m. Se puede observar que la compacidad temporal de la Trama m mejora sin costo en compacidad espectral. Para la compacidad de la trama m - 1 se puede observar una mejora para todos los factores de fusiónc >2, pero una regresión por el factor de fusiónc =2. Se esperaba esta regresión, dado que la TDAR original conc = 2ya había dado como resultado una compacidad de respuesta de impulso [4] empeorada.
Una situación similar puede observarse en la Figura 22. Aquí también, la trama m - 1 es transformada para coincidir con la división en tejas de la trama m. En esta situación, la compacidad temporal de la trama m - 1 mejora y no a costo en compacidad espectral. Y aquí también, el factor de fusiónc = 2sigue siendo problemático.
En general, se puede observar claramente que para factores de fusiónc >2, la STDAR reduce el ancho de respuesta de impulso al reducir el solapamiento. Sobre todos los factores de fusión, la compacidad es mejor para los factores de conmutación más pequeños r.
2.6 Otros modos de realización
Aunque los modos de realización más arriba se referían principalmente a la STDAR unilateral, donde la operación de STDAR cambia la división en tejas de tiempo-frecuencia de sólo una de las dos tramas para coincidir con la otra, cabe notar que la presente invención no se limita a tales modos de realización. Más bien, en modos de realización también puede aplicarse la STDAR bilateral, donde la operación de STDAR cambia las divisiones en tejas de tiempo-frecuencia de ambas tramas para eventualmente coincidir entre sí. Tal sistema podría utilizarse para mejorar la compacidad de sistema para relaciones de conmutación muy altas, es decir, donde, en lugar de cambiar una trama de una división en tejas extrema a la otra división en tejas extrema (32/2 ^ 2/2), ambas tramas pueden ser cambiadas a una división en tejas de terreno medio 32/2 ^ 8/8.
También, mientras no se viola la ortogonalidad es posible la optimización numérica de los coeficientes en R(z,m) y S(m). Esto podría mejorar el rendimiento de la STDAR para factores de fusióncmás bajos o relaciones de conmutaciónrmás altas.
La reducción del solapamiento en el dominio del tiempo (TDAR) es un método para mejorar la compacidad de respuesta de impulso de Transformadas de Coseno Discretas Modificadas (MDCT) ortogonales no uniformes. Convencionalmente, la TDAR únicamente era posible entre tramas de divisiones en tejas tiempo-frecuencia idénticas, sin embargo, los modos de realización descritas aquí eliminan esta limitación. Los modos de realización permiten el uso de TDAR entre dos tramas consecutivas de divisiones en tejas de tiempo-frecuencia diferentes al introducir otro paso de fusión de sub-banda o división de sub-banda. Por consiguiente, los modos de realización permiten divisiones en tejas de bancos de filtro más flexible y adaptables al tiempo que aún retienen respuestas de impulso compactas, dos atributos necesarios para la codificación de audio perceptual eficiente.
Los modos de realización proporcionan un método de aplicación de la reducción de solapamiento en el dominio del tiempo (TDAR) entre dos tramas de divisiones en tejas de tiempo-frecuencia diferentes. Anteriormente, la TDAR entre tales tramas no era posible, lo que resultaba en una compacidad de respuesta de impulso menos ideal cuando las divisiones en tejas de tiempo-frecuencia tenían que ser cambiadas de manera adaptable.
Los modos de realización que introducen otro paso de fusión de sub-banda/división de sub-banda, para permitir la coincidencia de las divisiones en tejas de tiempo-frecuencia de las dos tramas antes de aplicar la TDAR. Después de la TDAR, las divisiones en tejas de tiempo-frecuencia originales pueden ser reconstruidas.
Los modos de realización proporcionan dos escenarios. Primero, la coincidencia hacia arriba donde la resolución en el tiempo de una es incrementada para coincidir con la resolución en el tiempo de la otra. Segundo, la coincidencia hacia abajo, el caso contrario.
La Figura 23 muestra un diagrama de flujo de un método 320 para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio. El método comprende un paso 322 que consiste en efectuar una transformada muestreada críticamente solapada en cascada sobre al menos dos bloques de muestras que se solapan parcialmente de la señal de audio, para obtener conjuntos de muestras de sub-banda en base a un primer bloque de muestras de la señal de audio y para obtener conjuntos de muestras de sub-banda en base a un segundo bloque de muestras de la señal de audio. Además, el método 320 comprende un paso 324 que consiste en identificar, en el caso de que los conjuntos de muestras de sub-banda que se basan en el primer bloque de muestras representan regiones diferentes en un plano de tiempo-frecuencia en comparación con los conjuntos de muestras de sub-banda que se basan en el segundo bloque de muestras, uno o más conjuntos de muestras de sub-banda de los conjuntos de muestras de sub-banda que se basan en el primer bloque de muestras y uno o más conjuntos de muestras de sub banda de los conjuntos de muestras de sub-banda que se basan en el segundo bloque de muestras que, en combinación, representan la misma región del plano de tiempo-frecuencia. Además, el método 320 comprende un paso 326 que consiste en efectuar transformadas de tiempo-frecuencia sobre los uno o más conjuntos de muestras de sub-banda identificados de los conjuntos de muestras de sub-banda que se basan en el primer bloque de muestras y/o los uno o más conjuntos de muestras de sub-banda identificados de los conjuntos de muestras de sub-banda que se basan en el segundo bloque de muestras, para obtener una o más muestras de sub-banda transformadas del dominio del tiempo al dominio de la frecuencia que representan, cada una, la misma región en el plano de tiempofrecuencia que una correspondiente de las una o más muestras de sub-banda identificadas o una o más versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas. Además, el método 320 comprende un paso 328 que consiste en efectuar una combinación ponderada de dos conjuntos correspondientes de muestras de sub-banda o versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas, uno obtenido en base al primer bloque de muestras de la señal de audio y uno obtenido en base al segundo bloque de muestras de la señal de audio, para obtener representaciones en sub-bandas de solapamiento reducido de la señal de audio.
La Figura 24 muestra un diagrama de flujo de un método 420 para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio, donde la representación en sub-bandas de la señal de audio comprende conjuntos de muestras con solapamiento reducido. El método 420 comprende un paso 422 que consiste en efectuar transformadas de tiempo-frecuencia sobre uno o más conjuntos de muestras de sub-banda de solapamiento reducido de conjuntos de muestras de sub-banda de solapamiento reducido que corresponden a un segundo bloque de muestras de la señal de audio y/o uno o más conjuntos de muestras de sub-banda de solapamiento reducido de conjuntos de muestras de sub-banda de solapamiento reducido que corresponden a un segundo bloque de muestras de la señal de audio, para obtener una o más muestras de sub-banda de solapamiento reducido transformadas del dominio del tiempo al dominio de la frecuencia que representan, cada una, la misma región en el plano de tiempo-frecuencia que una correspondiente de las una o más muestras de sub-banda de solapamiento reducido que corresponden al otro bloque de muestras de la señal de audio o una o más versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas. Además, el método 420 comprende un paso 424 que consiste en efectuar combinaciones ponderadas de conjuntos correspondientes de muestras de sub-banda de solapamiento reducido o versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas, para obtener una representación en sub-bandas solapada. Además, el método 420 comprende un paso 426 que consiste en efectuar transformadas de tiempo-frecuencia sobre la representación en sub-bandas solapada, para obtener conjuntos de muestras de sub-banda que corresponden al primer bloque de muestras de la señal de audio y conjuntos de muestras de sub-banda que corresponden al segundo bloque de muestras de la señal de audio, donde una transformada del dominio del tiempo al dominio de la frecuencia aplicada por la primera etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa es inversa a la transformada del dominio del tiempo al dominio de la frecuencia aplicada por la segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa. Además, el método 420 comprende un paso 428 que consiste en efectuar una transformada muestreada críticamente solapada inversa en cascada sobre los conjuntos de muestras, para obtener un conjunto de muestras asociado a un bloque de muestras de la señal de audio.
Si bien algunos aspectos hayan sido descritos en el contexto de un aparato, está claro que estos aspectos representan también una descripción del método correspondiente, donde un bloque o dispositivo corresponde a un paso del método o una característica de un paso del método. De manera análoga, los aspectos descritos en el contexto de un paso del método representan también una descripción de un bloque o elemento o característica correspondiente de un aparato correspondiente. Algunos o todos los pasos del método pueden ser ejecutafod por (o mediante) un aparato de hardware, tal como, por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunos modos de realización, uno o más de los pasos del método más importante pueden ser ejecutados por este aparato.
En función de ciertos requerimientos de implementación, los modos de realización de la invención pueden ser implementados en hardware o en software. La implementación puede efectuarse mediante un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un Blu-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tenga, almacenadas en el mismo, señales de control legibles electrónicamente que cooperan (o son capaces de cooperar) con un sistema de ordenador programable de modo que se efectúe el método respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
Algunos modos de realización según la invención comprenden un portador de datos que tiene señales de control legibles electrónicamente que son capaces de cooperar con un sistema de ordenador programable, de modo que se efectúe uno de los métodos descritos aquí.
Generalmente, los modos de realización de la presente invención pueden implementarse como un producto de programa de ordenador con un código de programa, donde el código de programa es operativo para realizar uno de los métodos cuando el producto de programa de ordenador es ejecutado en un ordenador. El código de programa puede almacenarse, por ejemplo, en un portador legible por una máquina.
Otros modos de realización comprenden el programa de ordenador para realizar uno de los métodos descritos aquí, almacenado en un portador legible por una máquina.
En otras palabras, un modo de realización de los método según la invención descritos en relación con las figuras 15 a 24 es, por lo tanto, un programa de ordenador que tiene un código de programa para realizar uno de los métodos descritos en relación con las figuras 15 a 24 cuando el programa de ordenador es ejecutado en un ordenador.
Otro modo de realización del método de los métodos según la invención descritos en relación con las figuras 15 a 24 es, por lo tanto, un portador de datos (o un medio de almacenamiento digital o un medio legible por ordenador) que comprende, grabado en el mismo, el programa de ordenador para realizar uno de los métodos descritos en relación con las figuras 15 a 24. El portador de datos, el medio de almacenamiento digital o el medio grabado son típicamente tangibles y/o no transitorios.
Otro modo de realización del método de los métodos según la invención descritos en relación con las figuras 15 a 24 es, por tanto, un flujo de datos o una secuencia de señales que representa el programa de ordenador para realizar uno de los métodos descritos en relación con las figuras 15 a 24. El flujo de datos o la secuencia de señales puede ser configurado, por ejemplo, para ser transferido a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.
Otro modo de realización comprende un medio de procesamiento, por ejemplo un ordenador o un dispositivo lógico programable, configurado o adaptado para realizar uno de los métodos descritos en relación con las figuras 15 a 24.
Otro modo de realización comprende un ordenador que tiene instalado en él el programa de ordenador para realizar uno de los métodos descritos en relación con las figuras 15 a 24.
Otro modo de realización según la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, electrónicamente u ópticamente) un programa de ordenador para realizar uno de los métodos descritos en relación con las figuras 15 a 24 a un receptor. El receptor puede ser, por ejemplo, un ordenador, un dispositivo móvil, un dispositivo de memoria o similar. El aparato o sistema puede, por ejemplo, comprender un servidor de archivos para transferir el programa de ordenador al receptor.
En algunos modos de realización, un dispositivo lógico programable (por ejemplo, una matriz de puertas programable por campo) puede ser utilizado para efectuar algunas o todas las funcionalidades de los métodos descritos aquí. En algunos modos de realización, una matriz de puertas programable por campo puede cooperar con un microprocesador para efectuar uno de los métodos descritos en relación con las figuras 15 a 24.
En general, los métodos son realizados preferiblemente por cualquier aparato de hardware.
El aparato descrito aquí puede implementarse mediante un aparato de hardware o mediante un ordenador o mediante una combinación de un aparato de hardware y un ordenador.
El aparato descrito aquí, o cualquier componente del aparato descrito aquí, puede implementarse al menos parcialmente en hardware y/o software.
Los métodos descritos aquí pueden realizarse mediante un aparato de hardware o mediante un ordenador o mediante una combinación de un aparato de hardware y un ordenador.
Los métodos descritos aquí, o cualquier componente del aparato descrito aquí, pueden realizarse al menos parcialmente por medio de hardware y/o software.
Los modos de realización descritas más arriba son meramente ilustrativos de los principios de la presente invención. Se entiende que modificaciones y variaciones de las disposiciones y de los detalles descritos aquí serán evidentes para otros expertos en la técnica. Por lo tanto, la intención es que sean limitados únicamente por el alcance de las reivindicaciones de patente en anexo y no por los detalles específicos presentados aquí a manera de descripción y explicación de los modos de realización.
Referencias
[1] H. S. Malvar, “Biorthogonal and nonuniform lapped transforms for transform coding with reduced blocking and ringing artifacts,” IEEE Transactions on Signal Processing, vol. 46, n° 4, páginas 1043-1053, Abril de 1998.
[2] O. A. Niamut and R. Heusdens, “Subband merging in cosine-modulated filter banks,” IEEE Signal Processing Letters, vol. 10, n° 4, páginas 111-114, Abril de 2003.
[3] Frederic Bimbot, Ewen Camberlein, and Pierrick Philippe, “Adaptive Filter Banks using Fixed Size MDCT and Subband Merging for Audio Coding - Comparison with the MPEG AAC Filter Banks,” en Audio Engineering Society Convention 121. Octubre de 2006, Audio Engineering Society.
[4] N. Werner and B. Edler, “Nonuniform Orthogonal Filterbanks Based on MDCT Analysis/Synthesis and Time-Domain Aliasing Reduction,” IEEE Signal Processing Letters, vol. 24, n° 5, páginas 589-593, Mayo de 2017.
[5] Nils Werner and Bernd Edler, “Perceptual Audio Coding with Adaptive Non-Uniform Time/Frequency Tilings using Subband Merging and Time Domain Aliasing Reduction,” in 2019 IEEE International Conference on Acoustics, Speech and Signal Processing, 2019.
[6] B. Edler, “Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen,” Frequenz, vol. 43, páginas 252-256, Septiembre de 1989.
[7] G. D. T. Schuller and M. J. T. Smith, “New framework for modulated perfect reconstruction filter banks,” IEEE Transactions on Signal Processing, vol. 44, n° 8, páginas 1941-1954, Agosto de 1996.
[8] Gerald Schuller, “Time-Varying Filter Banks With Variable System Delay,” en IEEE International Conference on Acoustics, Speech, and Signal Proecessing (ICASSP, 1997, páginas 21-24.
[9] Carl Taswell, “Empirical Tests for Evaluation of Multirate Filter Bank Parameters,” in Wavelets in Signal and Image Analysis, Max A. Viergever, Arthur A. Petrosian, and Francois G. Meyer, Eds., vol. 19, pp. 111-139. Springer Netherlands, Dordrecht, 2001.
[10] F. Schuh, S. Dick, R. Füg, C. R. Helmrich, N. Rettelbach, and T. Schwegler, “Efficient Multichannel Audio Tranform Coding with Low Delay and Complexity.” Audio Engineering Society, Sep. 2016. [Online]. Disponible en: http://www.aes.org/e-lib/browse.cfm?el¡b=18464.
[11] EP 3276620 A1
[12] WO 2018/201112 A1
[13] PRINCEN J P ET AL: “ANALYSIS/SYNTHESIS FILTER BASNK DESIGN BASED ON TIME DOMAIN ALIASING CANCELLATION", IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, IEEE INC. NEW YORK, USA, vol. ASSP-34, n° 5, 1 Octubre de 1986 (1986-10-01), páginas 1153-1161, XP000674042, ISSN: 0096-3518, DOI: 10.1109/T ASSP.1986.1164954.

Claims (17)

  1. REIVINDICACIONES 1. Procesador de audio (100) para procesar una señal de audio (102) para obtener una representación en sub bandas de la señal de audio (102), donde el procesador de audio (100) comprende: una etapa de transformada muestreada críticamente solapada en cascada (104) configurada para efectuar una transformada muestreada críticamente solapada en cascada sobre al menos dos bloques (108_1; 108_2) que se solapan parcialmente de muestras de la señal de audio (102), para obtener conjuntos (110_1,1; 110_1,2) de muestras de sub-banda en base a un primer bloque (108_1) de muestras de la señal de audio (102), y para obtener conjuntos (110_2,1; 110_2,2) de muestras de sub-banda en base a un segundo bloque (108_2) de muestras de la señal de audio (102); una primera etapa de transformada del dominio del tiempo al dominio de la frecuencia (105) configurada para identificar, en el caso de que los conjuntos (110_1,1; 110_1,2) de muestras de sub-banda que se basan en el primer bloque (108_1) de muestras representan regiones diferentes en un plano de tiempo-frecuencia en comparación con los conjuntos (110_2,1; 110_2,2) de muestras de sub-banda que se basan en el segundo bloque (108_2) de muestras, uno o más conjuntos de muestras de sub-banda de los conjuntos (110_1,1; 110_1,2) de muestras de sub-banda que se basan en el primer bloque (108_1) de muestras y uno o más conjuntos de muestras de sub-banda de los conjuntos (110_2,1; 110_2,2) de muestras de sub-banda que se basan en el segundo bloque (108_2) de muestras que, en combinación, representan la misma región en el plano de tiempo-frecuencia, y para transformar del dominio del tiempo al dominio de la frecuencia los uno o más conjuntos de muestras de sub-banda identificados de los conjuntos (110_2,1; 110_2,2) de muestras de sub-banda que se basan en el primer bloque (108_1) de muestras y/o laos uno o más conjuntos de muestras de sub-banda identificados de los conjuntos (110_2,1; 110_2,2) de muestras de sub-banda que se basan en el segundo bloque (108_2) de muestras, para obtener una o más muestras de sub-banda transformadas del dominio del tiempo al dominio de la frecuencia que representan, cada una, la misma región en el plano de tiempo-frecuencia que una correspondiente de las una o más muestras de sub-banda identificadas o una o más versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas; y una etapa de reducción de solapamiento en el dominio del tiempo (106) configurada para efectuar una combinación ponderada de dos conjuntos correspondientes de muestras de sub-banda, o versiones transformadas del dominio del tiempo al dominio de la frecuencia de los mismos, uno obtenido en base al primer bloque (108_1) de muestras de la señal de audio (102) y uno obtenido en base al segundo bloque (108_2) de muestras de la señal de audio, para obtener representaciones en sub-bandas con solapamiento reducido (112_2,1; 112_2,2) de la señal de audio (102).
  2. 2. Procesador de audio (100) según la reivindicación precedente, donde la transformada del dominio del tiempo al dominio de la frecuencia efectuada por la primera etapa de transformada del dominio del tiempo al dominio de la frecuencia es una transformada muestreada críticamente solapada.
  3. 3. Procesador de audio (100) según una de las reivindicaciones precedentes, donde la transformada del dominio del tiempo al dominio de la frecuencia de los uno o más conjuntos identificados de muestras de sub-banda de los conjuntos (110_2,1; 110_2,2) de muestras de sub-banda que se basan en el segundo bloque (108_2) de muestras y/o de los uno o más conjuntos identificados de muestras de sub-banda de los conjuntos (110_2,1; 110_2,2) de muestras de sub-banda que se basan en el segundo bloque (108_2) de muestras efectuada por la etapa de transformada del dominio del tiempo al dominio de la frecuencia corresponde a una transformada descrita por la siguiente fórmula S (m ) =
    dondeS(m)describe la transformada, dondemdescribe el índice del bloque de muestras de la señal de audio, dondeT0 ••• TKdescribe las muestras de sub-banda de los uno o más conjuntos identificados correspondientes de muestras de sub-banda.
  4. 4. Procesador de audio (100) según una de las reivindicaciones precedentes, donde la etapa de transformada muestreada críticamente solapada en cascada (104) está configurada para procesar a primer conjunto (124_1) de bines obtenido en base al primer bloque (108_1) de muestras de la señal de audio y un segundo conjunto (124_2) de bines obtenido en base al segundo bloque (108_2) de muestras de la señal de audio mediante una segunda etapa de transformada muestreada críticamente solapada (126) de la etapa de transformada muestreada críticamente solapada en cascada (104), donde la segunda etapa de transformada muestreada críticamente solapada (126) está configurada para efectuar, en función de las características de la señal de audio, primeras transformadas muestreadas críticamente solapadas sobre el primer conjunto (124_1) de bines para obtener los conjuntos (110_1,1; 110_1,2) de muestras de sub-banda que se basan en el primer bloque (108_1) de muestras y segundas transformadas muestreadas críticamente solapadas sobre el segundo conjunto (124_2) de bines para obtener los conjuntos (110_2,1; 110_2,2) de muestras de sub-banda que se basan en el segundo bloque (108_2) de muestras, donde una o más de las primeras transformadas muestreadas críticamente presentan longitudes diferentes en comparación con las segundas transformadas muestreadas críticamente.
  5. 5. Procesador de audio (100) según la reivindicación precedente, donde la primera etapa de transformada del dominio del tiempo al dominio de la frecuencia está configurada para identificar, en el caso de que una o más primeras transformadas muestreadas críticamente presentan diferentes longitudes en comparación con las segundas transformadas muestreadas críticamente, uno o más conjuntos de muestras de sub-banda de los conjuntos (110_1,1; 110_1,2) de muestras de sub-banda que se basan en el primer bloque (108_1) de muestras y uno o más conjuntos de muestras de sub-banda de los conjuntos (110_2,1; 110_2,2) de muestras de sub-banda que se basan en el segundo bloque (108_2) de muestras que representan la misma región en el plano de tiempo-frecuencia de la señal de audio.
  6. 6. Procesador de audio (100) según una de las reivindicaciones precedentes, donde el procesador de audio (100) comprende una segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia configurada para transformar del dominio del tiempo al dominio de la frecuencia la representación en sub-bandas de solapamiento reducido (112_1) de la señal de audio (102), donde una transformada del dominio del tiempo al dominio de la frecuencia aplicada por la segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia es inversa a la transformada del dominio del tiempo al dominio de la frecuencia aplicada por la primera etapa de transformada del dominio del tiempo al dominio de la frecuencia .
  7. 7. Procesador de audio (100) según una de las reivindicaciones precedentes, donde la reducción de solapamiento en el dominio del tiempo efectuada por la etapa de reducción de solapamiento en el dominio del tiempo corresponde a una transformada descrita por la siguiente fórmula
    dondeR(z,m)describe la transformada, donde z describe el índice de trama en el dominio z, dondemdescribe el índice del bloque de muestras de la señal de audio, dondeF'0 — F'Kdescribe las versiones modificadas deNxNmatrices de pre-permutación/plegamiento de transformada muestreada críticamente solapadas.
  8. 8. Procesador de audio (100) según una de las reivindicaciones precedentes, donde el procesador de audio (100) está configurado para proporcionar un flujo de bits que comprende un parámetro STDAR que indica si una longitud de los uno o más conjuntos identificados de muestras de sub banda que corresponden al primer bloque de muestras o al segundo bloque de muestras es utilizada en la etapa de reducción de solapamiento en el dominio del tiempo para obtener la representación en sub-bandas de solapamiento reducido (112_1) correspondiente de la señal de audio (102), o donde el procesador de audio (100) está configurado para proporcionar un flujo de bits que comprende parámetros de longitud de MDCT que indican las longitudes de los conjuntos de muestras de sub-banda (110_1,1; 110_1,2; 110_2,1; 110_2,2)..
  9. 9. Procesador de audio (100) según una de las reivindicaciones precedentes, donde el procesador de audio (100) está configurado para efectuar la codificación de canales conjunta.
  10. 10. Procesador de audio (100) según la reivindicación precedente, donde el procesador de audio (100) está configurado para efectuar M/S o MCT como un procesamiento de canales conjunto.
  11. 11. Procesador de audio (100) según una de las reivindicaciones precedentes, donde el procesador de audio (100) está configurado para proporcionar un flujo de bits que comprende al menos un parámetro de STDAR que indica una longitud de las una o más muestras de sub-banda transformadas del dominio del tiempo al dominio de la frecuencia que corresponden al primer bloque de muestras y de las una o más muestras de sub-banda transformadas del dominio del tiempo al dominio de la frecuencia que corresponden al segundo bloque de muestras utilizado en la etapa de reducción de solapamiento en el dominio del tiempo para obtener la representación en sub-bandas de solapamiento reducido (112_1) correspondiente de la señal de audio (102) o una versión codificada de las mismas.
  12. 12. Procesador de audio (100) según una de las reivindicaciones precedentes, donde la etapa de transformada muestreada críticamente solapada en cascada (104) comprende una primera etapa de transformada muestreada críticamente solapada (120) configurada para efectuar transformadas muestreadas críticamente solapadas sobre un primer bloque (108_1) de muestras y un segundo bloque (108_2) de muestras de los al menos dos bloques (108_1; 108_2) que se solapan parcialmente de muestras de la señal de audio (102), para obtener un primer conjunto (124_1) de bines para el primer bloque (108_1) de muestras y un segundo conjunto (124_2) de bines para el segundo bloque (108_2) de muestras.
  13. 13. Procesador de audio (100) según la reivindicación precedente, donde la etapa de transformada muestreada críticamente solapada en cascada (104) comprende además una segunda etapa de transformada muestreada críticamente solapada (126) configurada para efectuar una transformada muestreada críticamente solapada sobre un segmento (128_1,1) del primer conjunto (124_1) de bines y para efectuar una transformada muestreada críticamente solapada sobre un segmento (128_2,1) del segundo conjunto (124_2) de bines, donde cada segmento es asociado a una sub-banda de la señal de audio (102), para obtener un conjunto (110_1,1) de muestras de sub-banda para el primer conjunto de bines y un conjunto (110_2,1) de muestras de sub-banda para el segundo conjunto de bines.
  14. 14. Procesador de audio (200) para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio (102), donde la representación en sub-bandas de la señal de audio comprende conjuntos de muestras de sub-banda de solapamiento reducido, donde el procesador de audio (200) comprende: una segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa configurada para transformar del dominio del tiempo al dominio de la frecuencia uno o más conjuntos de muestras de sub banda de solapamiento reducido de conjuntos de muestras de sub-banda de solapamiento reducido que corresponden a un primer bloque de muestras de la señal de audio y/o uno o más conjuntos de muestras de sub-banda de solapamiento reducido de conjuntos de muestras de sub-banda de solapamiento reducido que corresponden a un segundo bloque de muestras de la señal de audio, para obtener una o más muestras de sub-banda de solapamiento reducido transformadas del dominio del tiempo al dominio de la frecuencia que representan, cada una, la misma región en el plano de tiempo-frecuencia que una o más muestras de sub banda de solapamiento reducido que corresponden al otro bloque de muestras del primer bloque de muestras y del segundo bloque de muestras de la señal de audio o una o más versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas, una etapa de reducción de solapamiento en el dominio del tiempo inversa (202) configurada para efectuar combinaciones ponderadas de conjuntos correspondientes de muestras de sub-banda de solapamiento reducido o versiones transformadas del dominio del tiempo al dominio de la frecuencia de los mismos, para obtener una representación en sub-bandas solapada, una primera etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa configurada para transformar del dominio del tiempo al dominio de la frecuencia la representación en sub-bandas solapada, para obtener conjuntos (110_1,1; 110_1,2) de muestras de sub-banda que corresponden al primer bloque (108_1) de muestras de la señal de audio y conjuntos (110_2,1; 110_2,2) de muestras de sub-banda que corresponden al segundo bloque (108_2) de muestras de la señal de audio, donde una transformada del dominio del tiempo al dominio de la frecuencia aplicada por la primera etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa es inversa a la transformada del dominio del tiempo al dominio de la frecuencia aplicada por la segunda etapa de transformada del dominio del tiempo al dominio de la frecuencia inversa, una etapa de transformada muestreada críticamente solapada inversa en cascada (204) configurada para efectuar una transformada muestreada críticamente solapada inversa en cascada sobre los conjuntos de muestras (110_1,1; 110_1,2; 110_2,1; 110_2,2), para obtener un conjunto (206_1,1) de muestras asociado a un bloque de muestras de la señal de audio (102).
  15. 15. Método (320) para procesar una señal de audio para obtener una representación en sub-bandas de la señal de audio, donde el método comprende el hecho de: efectuar (322) una transformada muestreada críticamente solapada en cascada sobre al menos dos bloques (108_1; 108_2) que se solapan parcialmente de muestras de la señal de audio (102), para obtener conjuntos (110_1,1; 110_1,2) de muestras de sub-banda en base aun primer bloque (108_1) de muestras de la señal de audio (102), y para obtener conjuntos (110_2,1; 110_2,2) de muestras de sub-banda en base a un segundo bloque (108_2) de muestras de la señal de audio (102); identificar (324), en el caso de que los conjuntos (110_1,1; 110_1,2) de muestras de sub-banda que se basan en el primer bloque (108_1) de muestras representan regiones diferentes en un plano de tiempo-frecuencia en comparación con los conjuntos (110_2,1; 110_2,2) de muestras de sub-banda que se basan en el segundo bloque (108_2) de muestras, uno o más conjuntos de muestras de sub-banda de los conjuntos (110_1,1; 110_1,2) de muestras de sub-banda que se basan en el primer bloque (108_1) de muestras y uno o más conjuntos de muestras de sub-banda de los conjuntos (110_2,1; 110_2,2) de muestras de sub-banda que se basan en el segundo bloque (108_2) de muestras que, en combinación, representan la misma región en el plano de tiempo-frecuencia, efectuar (326) transformadas del dominio del tiempo al dominio de la frecuencia sobre los uno o más conjuntos de muestras de sub-banda identificados de los conjuntos (110_2,1; 110_2,2) de muestras de sub banda que se basan en el primer bloque (108_1) de muestras y/o los uno o más conjuntos de muestras de sub-banda identificados de los conjuntos (110_2,1; 110_2,2) de muestras de sub-banda que se basan en el segundo bloque (108_2) de muestras, para obtener una o más muestras de sub-banda transformadas del dominio del tiempo al dominio de la frecuencia que representan, cada una, la misma región en el plano de tiempo-frecuencia que una correspondiente de las una o más muestras de sub-banda identificadas o una o más versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas; y efectuar (328) una combinación ponderada de dos conjuntos correspondientes de muestras de sub-banda, o versiones transformadas del dominio del tiempo al dominio de la frecuencia de los mismos, uno obtenido en base al primer bloque (108_1) de muestras de la señal de audio (102) y uno obtenido en base al segundo bloque (108_2) de muestras de la señal de audio, para obtener representaciones en sub-bandas con solapamiento reducido (112_1; 112_2) de la señal de audio (102).
  16. 16. Método (420) para procesar una representación en sub-bandas de una señal de audio para obtener la señal de audio, donde la representación en sub-bandas de la señal de audio comprende conjuntos de muestras de sub-banda de solapamiento reducido, donde el método que comprende el hecho de: efectuar (422) transformadas del dominio del tiempo al dominio de la frecuencia sobre uno o más conjuntos de muestras de sub-banda de solapamiento reducido de conjuntos de muestras de sub-banda de solapamiento reducido que corresponden a un primer bloque de muestras de la señal de audio y/o uno o más conjuntos de muestras de sub-banda de solapamiento reducido de conjuntos de muestras de sub-banda de solapamiento reducido que corresponden a un segundo bloque de muestras de la señal de audio, para obtener una o más muestras de sub-banda de solapamiento reducido transformadas del dominio del tiempo al dominio de la frecuencia que representan, cada una, la misma región en el plano de tiempo-frecuencia que una correspondiente de las una o más muestras de sub-banda de solapamiento reducido que corresponden al otro bloque de muestras del primer bloque de muestras y del segundo bloque de muestras de la señal de audio o una o más versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas, efectuar (424) combinaciones ponderadas de conjuntos correspondientes de muestras de sub-banda de solapamiento reducido o versiones transformadas del dominio del tiempo al dominio de la frecuencia de las mismas, para obtener una representación en sub-bandas solapada, efectuar (426) transformadas del dominio del tiempo al dominio de la frecuencia sobre la representación en sub-bandas solapada, para obtener conjuntos (110_1,1; 110_1,2) de muestras de sub-banda que corresponden al primer bloque (108_1) de muestras de la señal de audio y conjuntos (110_2,1; 110_2,2) de muestras de sub-banda que corresponden al segundo bloque (108_2) de muestras de la señal de audio, donde las transformadas del dominio del tiempo al dominio de la frecuencia efectuadas sobre los uno o más conjuntos de muestras de sub-banda de solapamiento reducido de conjuntos de muestras de sub-banda de solapamiento reducido que corresponden al primer bloque de muestras de la señal de audio o los uno o más conjuntos de muestras de sub-banda de solapamiento reducido de conjuntos de muestras de sub-banda de solapamiento reducido que corresponden al segundo bloque de muestras de la señal de audio son inversas a las transformadas del dominio del tiempo al dominio de la frecuencia efectuadas sobre la representación en sub-bandas solapada, efectuar (428) una transformada muestreada críticamente solapada inversa en cascada sobre los conjuntos de muestras (110_1,1; 110_1,2; 110_2,1; 110_2,2), para obtener un conjunto (206_1,1) de muestras asociado a un bloque de muestras de la señal de audio (102).
  17. 17. Programa de ordenador para realizar un método según una de las reivindicaciones 15 y 16.
ES20757930T 2019-08-28 2020-08-25 Divisiones en tejas de tiempo-frecuencia variables en el tiempo mediante bancos de filtros ortogonales no uniformes en base a análisis/síntesis de mdct y tdar Active ES2966335T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP19194145.9A EP3786948A1 (en) 2019-08-28 2019-08-28 Time-varying time-frequency tilings using non-uniform orthogonal filterbanks based on mdct analysis/synthesis and tdar
PCT/EP2020/073742 WO2021037847A1 (en) 2019-08-28 2020-08-25 Time-varying time-frequency tilings using non-uniform orthogonal filterbanks based on mdct analysis/synthesis and tdar

Publications (1)

Publication Number Publication Date
ES2966335T3 true ES2966335T3 (es) 2024-04-22

Family

ID=67777236

Family Applications (1)

Application Number Title Priority Date Filing Date
ES20757930T Active ES2966335T3 (es) 2019-08-28 2020-08-25 Divisiones en tejas de tiempo-frecuencia variables en el tiempo mediante bancos de filtros ortogonales no uniformes en base a análisis/síntesis de mdct y tdar

Country Status (10)

Country Link
US (1) US20220165283A1 (es)
EP (2) EP3786948A1 (es)
JP (1) JP7438334B2 (es)
KR (1) KR20220051227A (es)
CN (1) CN114503196A (es)
BR (1) BR112022003044A2 (es)
CA (1) CA3151204C (es)
ES (1) ES2966335T3 (es)
MX (1) MX2022002322A (es)
WO (1) WO2021037847A1 (es)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3644313A1 (en) * 2018-10-26 2020-04-29 Fraunhofer Gesellschaft zur Förderung der Angewand Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT2109098T (pt) * 2006-10-25 2020-12-18 Fraunhofer Ges Forschung Aparelho e método para gerar amostras de áudio de domínio de tempo
AU2015291897B2 (en) * 2014-07-25 2019-02-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Acoustic signal encoding device, acoustic signal decoding device, method for encoding acoustic signal, and method for decoding acoustic signal
EP3276620A1 (en) 2016-07-29 2018-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis
WO2018201112A1 (en) * 2017-04-28 2018-11-01 Goodwin Michael M Audio coder window sizes and time-frequency transformations
EP3644313A1 (en) 2018-10-26 2020-04-29 Fraunhofer Gesellschaft zur Förderung der Angewand Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction

Also Published As

Publication number Publication date
US20220165283A1 (en) 2022-05-26
CA3151204C (en) 2024-06-11
EP4022607A1 (en) 2022-07-06
BR112022003044A2 (pt) 2022-05-17
EP4022607B1 (en) 2023-09-13
MX2022002322A (es) 2022-04-06
KR20220051227A (ko) 2022-04-26
EP3786948A1 (en) 2021-03-03
CN114503196A (zh) 2022-05-13
JP7438334B2 (ja) 2024-02-26
EP4022607C0 (en) 2023-09-13
WO2021037847A1 (en) 2021-03-04
CA3151204A1 (en) 2021-03-04
JP2022546448A (ja) 2022-11-04

Similar Documents

Publication Publication Date Title
RU2691231C2 (ru) Декодер для декодирования кодированного аудиосигнала и кодер для кодирования аудиосигнала
ES2951090T3 (es) Codificador de audio para la codificación de una señal de múltiples canales y decodificador de audio para la decodificación de una señal de audio codificada
ES2953084T3 (es) Decodificador de audio para procesar audio estéreo usando una dirección de predicción variable
DK2186088T3 (en) Low complexity spectral analysis / synthesis using selectable time resolution
US10978082B2 (en) Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis
ES2965741T3 (es) Aparato para codificar o decodificar una señal multicanal codificada mediante una señal de relleno generada por un filtro de banda ancha
KR102547480B1 (ko) Mdct-도메인 에러 은닉
ES2966335T3 (es) Divisiones en tejas de tiempo-frecuencia variables en el tiempo mediante bancos de filtros ortogonales no uniformes en base a análisis/síntesis de mdct y tdar
ES2783975T3 (es) Codificación multicanal
ES2922975T3 (es) Codificador, decodificador y procedimientos para la conmutación de señal adaptable de la relación de superposición en la codificación por transformada de audio
RU2791664C1 (ru) Варьирующиеся во времени расположения частотно-временными плитками с использованием неравномерных ортогональных гребенок фильтров на основе mdct-анализа/синтеза и tdar
JP2022505789A (ja) サブバンド併合および時間領域エイリアシング低減を使用した適応的な非均一時間/周波数タイリングによる知覚音声符号化
Werner et al. Time-Varying Time–Frequency Tilings Using Non-Uniform Orthogonal Filterbanks Based on MDCT Analysis/Synthesis and Time Domain Aliasing Reduction