ES2935911T3 - Descodificación estéreo de predicción compleja basada en MDCT - Google Patents

Descodificación estéreo de predicción compleja basada en MDCT Download PDF

Info

Publication number
ES2935911T3
ES2935911T3 ES20200782T ES20200782T ES2935911T3 ES 2935911 T3 ES2935911 T3 ES 2935911T3 ES 20200782 T ES20200782 T ES 20200782T ES 20200782 T ES20200782 T ES 20200782T ES 2935911 T3 ES2935911 T3 ES 2935911T3
Authority
ES
Spain
Prior art keywords
signal
frequency
stage
stereo
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES20200782T
Other languages
English (en)
Inventor
Heiko Purnhagen
Pontus Carlsson
Lars Villemoes
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=43952840&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2935911(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Dolby International AB filed Critical Dolby International AB
Application granted granted Critical
Publication of ES2935911T3 publication Critical patent/ES2935911T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01LMEASURING FORCE, STRESS, TORQUE, WORK, MECHANICAL POWER, MECHANICAL EFFICIENCY, OR FLUID PRESSURE
    • G01L19/00Details of, or accessories for, apparatus for measuring steady or quasi-steady pressure of a fluent medium insofar as such details or accessories are not special to particular types of pressure gauges
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

La invención proporciona métodos y dispositivos para codificar y descodificar estéreo usando predicción compleja en el dominio de la frecuencia. En una realización, un método de decodificación, para obtener una señal estéreo de salida a partir de una señal estéreo de entrada codificada mediante codificación de predicción compleja y que comprende primeras representaciones en el dominio de la frecuencia de dos canales de entrada, comprende los pasos de mezcla ascendente de: (i) calcular una segunda frecuencia- representación de dominio de un primer canal de entrada; y (ii) calcular un canal de salida sobre la base de la primera y la segunda representación en el dominio de la frecuencia del primer canal de entrada, la primera representación en el dominio de la frecuencia del segundo canal de entrada y un coeficiente de predicción complejo. El método comprende realizar modificaciones en el dominio de la frecuencia de forma selectiva antes o después de la mezcla ascendente. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Descodificación estéreo de predicción compleja basada en MDCT
Referencia cruzada a solicitud relacionada
Esta solicitud es una solicitud divisional europea de la solicitud de patente europea EP 18206652.2 (referencia: D10010BEP02), cuyo formulario 1001 OEP fue presentado el 16 de noviembre de 2018.
Campo técnico
La invención aquí descrita se refiere en general a la codificación de audio estéreo y, más precisamente, a técnicas para la codificación estéreo utilizando predicción compleja en el dominio en frecuencia.
Antecedentes de la invención
La codificación conjunta de los canales izquierdo (L) y derecho (R) de una señal estéreo permite una codificación más eficiente en comparación con la codificación independiente de L y R. Un enfoque común para la codificación estéreo conjunta es la codificación medio/lateral (M/S). Aquí una señal del canal medio (M) se forma agregando las señales L y R, por ejemplo. la señal M puede tener la forma
M = (L R)/2
Además, se forma una señal lateral (S) al restar los dos canales L y R, por ejemplo, la señal S puede tener la forma
S = (L - R)/2
En el caso de la codificación M/S, las señales M y S están codificadas en lugar de las señales L y R.
En la norma MPEG (Grupo de Expertos en Imágenes en Movimiento) AAC (Codificación de Audio Avanzada) (véase el documento normalizado ISO/IEC 13818-7), la codificación estéreo L/R y la codificación estéreo M/S se pueden elegir en forma de variable en el tiempo y variable en frecuencia. Por lo tanto, el codificador estéreo puede aplicar la codificación L/R para algunas bandas de frecuencia de la señal estéreo, mientras que la codificación M/S se utiliza para codificar otras bandas de frecuencia de la señal estéreo (variable en frecuencia). Además, el codificador puede alternar en el tiempo entre la codificación L/R y M/S (variable en el tiempo). En MPEG AAC, la codificación estéreo se lleva a cabo en el dominio en frecuencia, más particularmente en el dominio MDCT (transformada discreta del coseno modificada). Esto permite elegir adaptativamente la codificación L/R o M/S en frecuencia y también en forma variable en el tiempo.
La codificación estéreo paramétrica es una técnica para codificar eficientemente una señal de audio estéreo como señal monoaural más una pequeña cantidad de información lateral para los parámetros estéreo. Forma parte de la norma de Audio MPEG-4 (consúltese el documento de norma ISO/IEC 14496-3). La señal monoaural se puede codificar utilizando cualquier codificador de audio. Los parámetros estéreo se pueden alojar en la parte auxiliar del flujo monoaural de bits, logrando así una compatibilidad total hacia adelante y hacia atrás. En el descodificador, es la señal monoaural la que se descodifica primero, después de lo cual la señal estéreo se reconstruye con la ayuda de los parámetros estéreo. Una versión no correlacionada de la señal monoaural descodificada, que tiene una correlación cruzada cero con la señal monoaural, se genera por medio de un des correlador, por ejemplo, un filtro de paso apropiado que puede incluir una o más líneas de retardo. Esencialmente, la señal no correlacionada tiene la misma distribución de energía espectral y temporal que la señal monoaural. La señal monoaural junto con la señal no correlacionada se introduce en el proceso de mezcla ascendente que se controla mediante los parámetros estéreo y que reconstruye la señal estéreo. Para obtener más información, consúltese el documento "Low Complexity Parametric Stereo Coding in MPEG-4” H. Purnhagen, Proc. de la 7° Conferencia Internacional sobre Efectos Digitales de Audio (DAFx'04), Nápoles, Italia, 5-8, 2004 de octubre, páginas 163-168.
MPEG Surround (MPS; véase ISO/IEC 23003-1 y el documento "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding”, J. Herre et al., Audio Engineering Convention Paper 7084, Convención 122a, 5-8 de mayo de 2007) permiten combinar los principios de la codificación estéreo paramétrica con la codificación residual, sustituyendo la señal no correlacionada con una residual transmitida y, por lo tanto, mejorar la calidad perceptiva. La codificación residual se puede lograr mezclando descendentemente una señal multicanal y, opcionalmente, extrayendo las señales espaciales. Durante el proceso de mezclado descendente las señales residuales que representan la señal de error se computan y posteriormente se codifican y transmiten. Pueden tomar el lugar de las señales no relacionadas en el descodificador. En un enfoque híbrido, pueden reemplazar las señales no correlacionadas en ciertas bandas de frecuencia, preferiblemente en bandas relativamente bajas.
De acuerdo con el actual sistema de Lenguaje Unificado y Codificación de Audio MPEG (USAC), de los cuales dos ejemplos se muestran en la figura 1, el descodificador comprende un banco de filtros espejo en cuadratura de valor complejo (QMF) situado aguas abajo del descodificador principal. La representación de QMF obtenida como salida del banco de filtros es compleja, - por lo que se muestrea en exceso por un factor dos - y puede disponerse como una señal de mezcla descendente (o, de manera equivalente, una señal del canal medio) M y una señal residual D, a las que se aplica una matriz de mezcla ascendente con entradas complejas. Las señales L y R (en el dominio QMF) se obtienen como:
donde g es un factor de ganancia de valor real y a es un coeficiente de predicción de valor complejo. Preferiblemente, a se elige de tal manera que la energía de la señal residual D se minimice. El factor de ganancia puede determinarse mediante normalización, es decir, para garantizar que la potencia de la señal suma sea igual a la suma de las potencias de las señales izquierdo y derecho. Las partes real e imaginaria de cada una de las señales L y R son mutuamente redundantes - en principio, cada una de ellas puede ser calculada basándose en la otra - pero es beneficioso para permitir la aplicación posterior de un descodificador de replicación de banda espectral (SBR) sin que se produzcan errores de alias audibles. El uso de una representación de señal sobre muestreada también puede, por razones similares, ser elegida con el objetivo de prevenir errores conectados con otro proceso de señal adaptativa en tiempo o frecuencia (no se muestra), tal como la mezcla ascendente de monoaural a estéreo. El filtrado QMF inverso es el último paso de procesamiento en el descodificador. Se observa que la representación QMF limitada en banda de la señal permite técnicas residuales limitadas en banda y técnicas de "relleno residual", que pueden integrarse en descodificadores de este tipo.
La estructura de codificación anterior es muy adecuada para velocidades de bits bajas, generalmente por debajo de 80 kb/s, pero no es óptima para velocidades de bits más altas con respecto a la complejidad de cálculo. Más precisamente, a velocidades de bits más altas, la herramienta SBR generalmente no se utiliza (ya que no mejoraría la eficiencia de la codificación). Luego, en un descodificador sin una etapa SBR, solo la matriz de mezcla ascendente de valor complejo motiva la presencia del banco de filtros QMF, que es computacionalmente exigente e introduce un retardo (a una longitud de trama de 1024 muestras, el banco de filtros de análisis/síntesis QMF introduce un retardo de 961 muestras). Esto indica claramente la necesidad de una estructura de codificación más eficiente.
La técnica de predicción compleja aplicada a una codificación y descodificación estéreo paramétrica se conoce de la solicitud de patente internacional WO 2009/141775 A1.
Sumario de la invención
Un objeto de la presente invención es proporcionar un descodificador de acuerdo con la reivindicación 1, un método de descodificación de acuerdo con la reivindicación 9 y un programa de ordenador de acuerdo con la reivindicación 9, que es computacionalmente eficiente también en el rango de alta tasa de bits.
Las reivindicaciones dependientes definen realizaciones de la invención
En un primer aspecto, la invención proporciona un sistema descodificador para proporcionar una señal estéreo por codificación estéreo de predicción compleja, comprendiendo el sistema descodificador:
una mezcla ascendente adaptada para generar la señal estéreo basándose en las primeras representaciones en el dominio en frecuencia de una señal de mezcla descendente (M) y una señal residual (D), cada una de cuyas primeras representaciones en el dominio en frecuencia que comprenden los primeros componentes que representan el contenido espectral de la señal correspondiente expresada en un primer subespacio de un espacio multidimensional, comprendiendo la etapa de mezcla ascendente:
un módulo para calcular una segunda representación en el dominio en frecuencia de la señal de mezcla descendente basándose en la primera representación en el dominio en frecuencia de la misma, comprendiendo la segunda representación en el dominio en frecuencia los segundos componentes espectrales que representan el contenido espectral de la señal expresada en un segundo subespacio del espacio multidimensional que incluye una parte del espacio multidimensional que no está incluido en el primer subespacio;
un sumador ponderado para calcular una señal lateral (S) combinando la primera representación en el dominio en frecuencia de la señal residual, en la primera representación en el dominio en frecuencia de la señal de mezcla descendente ponderada mediante una parte de valor real de un coeficiente de predicción complejo y la segunda representación en el dominio en frecuencia de la señal de mezcla descendente ponderado mediante una parte de valor imaginario del coeficiente de predicción complejo; y
una etapa de suma y diferencia para calcular la señal estéreo basándose en la primera representación en el dominio en frecuencia de la señal de mezcla descendente y de la señal lateral,
una primera etapa (403; 1431) modificadora en el dominio en frecuencia situada aguas arriba de la etapa de mezcla ascendente y operable en un modo activo, en el cual procesa
una representación en el dominio en frecuencia de al menos una señal, y un modo pasivo, en el cual actúa como de paso; y
una segunda etapa (410; 1435) modificadora en el dominio en frecuencia situada aguas abajo de la etapa de mezcla ascendente y operable en un modo activo, en el cual procesa una representación en el dominio en frecuencia de al menos una señal, y un modo pasivo, en el cual actúa como de paso.
En un aspecto adicional de la invención, se proporciona un método para descodificar un flujo de bits en al menos una señal estéreo. Las características técnicas del método son análogas a los del sistema descodificador. En un aspecto adicional, la invención proporciona además un producto de programa de ordenador que contiene instrucciones para ejecutar el método en un ordenador.
La invención se beneficia de las ventajas de la codificación estéreo unificada en el sistema MPEG USAC. Estas ventajas se conservan también a velocidades de bits más altas, a las que normalmente no se utiliza SBR, sin el aumento significativo de complejidad computacional que acompañaría un enfoque basado en QMF. Esto es posible porque la transformada MDCT muestreada críticamente, que es la base del sistema de codificación de la transformada MPEG USAC, puede usarse para la codificación estéreo de predicción compleja, al menos en los casos en que los anchos de banda de audio del código de los canales de mezcla descendente y residuales son los mismos y el proceso de mezcla ascendente no incluye la no correlación. Esto significa que ya no se requiere una transformada QMF adicional. Una realización representativa de la codificación estéreo de predicción compleja en el dominio QMF haría en realidad aumentar el número de operaciones por unidad de tiempo significativamente en comparación con el estéreo tradicional L/R o M/S.
Como el experto en la materia puede apreciar, el hecho de que la etapa de mezcla ascendente funcione además en modo de paso permite que el descodificador descodifique de forma adaptativa de acuerdo con la codificación directa o conjunta convencional y la codificación de predicción compleja, según se determine en un lado del codificador. Por lo tanto, en aquellos casos en que el codificador no pueda aumentar positivamente el nivel de calidad más allá de la codificación estéreo directa L/R o la codificación estéreo M/S conjunta, puede al menos garantizar que se mantiene el mismo nivel. Por lo tanto, un descodificador de acuerdo con este aspecto de la invención puede, desde un punto de vista funcional, ser considerado como un superconjunto en relación con la técnica anterior.
Como ventaja sobre el estéreo con codificación de predicción basada en QMF, es posible la perfecta reconstrucción de la señal (aparte de los errores de cuantificación, que pueden hacerse arbitrariamente pequeños).
Por lo tanto, en un aspecto relacionado con, pero no cubierto por la invención reivindicada, se proporciona un aparato de codificación para la codificación estéreo basada en transformadas por predicción compleja. Preferiblemente, un aparato, según este aspecto no se limita a la codificación estéreo de predicción compleja, sino que sirve también en una codificación estéreo L/R directa o en un régimen de codificación estéreo M/S conjunta de acuerdo con la técnica anterior, de modo que es posible seleccionar el método de codificación más adecuado para una aplicación en particular o durante un intervalo de tiempo en particular.
Una representación sobre muestreada (es decir, compleja) de la señal, que incluye tanto dichos primer y segundo componentes espectrales, se utiliza como base para la predicción compleja de acuerdo con la invención, y, por lo tanto, los módulos para calcular dicha representación de sobre muestreo se encuentran en el sistema codificador y sistema descodificador según la invención. La composición espectral se refiere a los primero y segundo subespacios de un espacio multidimensional, que puede ser el conjunto de funciones dependientes del tiempo en un intervalo de longitud dada (por ejemplo, una longitud de trama de tiempo predefinida) muestreada a una frecuencia de muestreo finita. Es bien sabido que las funciones en este espacio multidimensional particular pueden ser aproximadas por medio de una suma ponderada finita de funciones básicas.
Como apreciarán los expertos, un codificador adaptado para cooperar con un descodificador está equipado con módulos equivalentes para proporcionar la representación sobre muestreada en la que se basa la codificación de predicción, así como para habilitar la fiel reproducción de la señal codificada. Dichos módulos equivalentes pueden ser módulos idénticos o similares o módulos con idénticas o similares características de transferencia. En particular, los módulos en el codificador y descodificador, respectivamente, pueden ser unidades de procesamiento similares o diferentes que ejecutan programas de ordenador respectivos que realizan conjuntos equivalentes de operaciones matemáticas.
En algunas realizaciones del sistema descodificador, los primeros componentes espectrales tienen valores reales expresados en el primer subespacio y los segundos componentes espectrales tienen valores imaginarios expresados en el segundo subespacio. El primero y el segundo componente espectrales juntos forman una representación espectral compleja de la señal. El primer subespacio puede ser la amplitud lineal de un primer conjunto de funciones base, mientras que el segundo subespacio puede ser la amplitud lineal de un segundo conjunto de funciones base, algunas de las cuales son linealmente independientes del primer conjunto de funciones base.
En una realización, el módulo para calcular la representación compleja es una transformada real a imaginaria, es decir, un módulo para calcular las partes imaginarias del espectro de una señal discreta en el tiempo sobre la base de una representación real de la señal. La transformada puede basarse en relaciones matemáticas exactas o aproximadas, tales como fórmulas de análisis armónico o relaciones heurísticas.
En algunas realizaciones del sistema descodificador, los primeros componentes espectrales pueden obtenerse por una transformada en el dominio tiempo a frecuencia, preferiblemente una transformada de Fourier, de una señal discreta en el dominio en el tiempo, tal como por una transformada discreta del coseno (DCT), una transformada discreta del coseno modificada (MDCT), una transformada discreta del seno (DST), una transformada discreta del seno modificada (MDST), una transformada rápida de Fourier (FFT), un algoritmo de Fourier basado en un factor primo o similar. En los primeros cuatro casos, los segundos componentes espectrales pueden obtenerse mediante DST, MDST, DCT y MDCT, respectivamente. Como es bien sabido, el intervalo lineal de los cosenos que son periódicos en el intervalo unitario forma un subespacio que no está completamente contenido en el intervalo lineal de los senos periódicos en el mismo intervalo. Preferiblemente, los primeros componentes espectrales pueden obtenerse mediante MDCT y los segundos componentes espectrales pueden obtenerse mediante MDST.
En una realización, el sistema descodificador incluye al menos un módulo temporal de formación de ruido (módulo TNS o filtro TNS), que se dispone aguas arriba de la etapa de mezcla ascendente. En términos generales, el uso del TNS aumenta la calidad de audio percibido para señales con componentes de tipo transitorio, y esto también se aplica a las realizaciones del sistema de descodificación de la invención que incluye TNS. En la codificación estéreo L/R y M/S convencional, el filtro TNS se puede aplicar como una última etapa de procesamiento en el dominio en frecuencia, directamente antes de la transformada inversa. Sin embargo, en el caso de la codificación estéreo de predicción compleja, a menudo es ventajoso aplicar el filtro TNS en las señales de mezcla descendente y residual, es decir, antes de la matriz de mezcla ascendente. Dicho de otra manera, el TNS se aplica a combinaciones lineales de los canales izquierdo y derecho, lo que tiene diversas ventajas. En primer lugar, puede dar lugar a una situación dada que el TNS solo sea beneficioso para, por ejemplo, la señal de mezcla descendente. Entonces, el filtrado TNS se puede suprimir u omitir para la señal residual y, lo que puede significar un uso más económico del ancho de banda disponible, los coeficientes del filtro TNS solo necesitan transmitirse para la señal de mezcla descendente. En segundo lugar, el cálculo de la representación sobre muestreada de la señal de mezcla descendente (por ejemplo, los datos MDST que se derivan de los datos MDCT para formar una representación compleja en el dominio en frecuencia), que es necesaria en la codificación de predicción compleja, puede requerir que en el dominio en el tiempo la representación de la señal de mezcla descendente sea computable. Esto, a su vez, significa que la señal de mezcla descendente está disponible preferiblemente como una secuencia de tiempo de los espectros MDCT obtenidos de una manera uniforme. Si el filtro TNS se aplicara en el descodificador después de la matriz de mezcla ascendente, que convierte una representación de mezcla descendente/residual en una representación izquierdo/derecho, solo se dispondrá de una secuencia de espectros MDCT residuales del TNS de la señal de mezcla descendente. Esto haría que el cálculo eficiente de los espectros MDST correspondientes sea un gran desafío, especialmente si los canales izquierdo y derecho utilizaran filtros TNS con diferentes características.
Se enfatiza que la disponibilidad de una secuencia de tiempo del espectro MDCT no es un criterio absoluto para obtener una representación de MDST ajustada para servir de base para la codificación de predicción compleja. Además de la evidencia experimental, este hecho puede explicarse porque el TNS se aplica generalmente solo a las frecuencias más altas, como por encima de unos pocos kilohercios, de modo que la señal residual filtrada por el TNS corresponde aproximadamente a la señal residual no filtrada para frecuencias más bajas. Así, la invención puede realizarse como un descodificador para la codificación estéreo de predicción compleja, en la que los filtros TNS tienen una posición diferente que aguas arriba de la etapa de mezcla ascendente, como se indica a continuación.
En una realización, el sistema descodificador incluye al menos un módulo TNS adicional situado aguas abajo de la etapa de mezcla ascendente. Por medio de una disposición de selector, ya sea el(los) módulo(s) TNS aguas arriba de la etapa de mezcla ascendente o el(los) módulo(s) TNS aguas abajo de la etapa de mezcla ascendente. Bajo ciertas circunstancias, el cálculo de la representación compleja en el dominio en frecuencia no requiere que una representación en el dominio en el tiempo de la señal de mezcla descendente sea computable. Además, como se expuso anteriormente, el descodificador puede funcionar selectivamente en un modo de codificación directa o conjunta, no aplicando codificación de predicción compleja, y entonces puede ser más adecuado aplicar la localización convencional de los módulos TNS, es decir, como uno de los últimos pasos de procesamiento en el dominio en frecuencia.
En una realización, el sistema descodificador está adaptado para economizar recursos de procesamiento, y posiblemente energía, desactivando el módulo para calcular una segunda representación en el dominio en frecuencia de la señal de mezcla descendente cuando esta última no sea necesaria. Se supone que la señal de mezcla descendente se divide en bloques de tiempo sucesivos, cada uno de los cuales está asociado con un valor del coeficiente de predicción complejo. Este valor puede ser determinado por una decisión tomada para cada bloque de tiempo por un codificador que coopera con el descodificador. Además, en esta realización, el módulo para calcular una segunda representación en el dominio en frecuencia de la señal de mezcla descendente se adapta para desactivarse si, para un bloque de tiempo dado, el valor absoluto de la parte imaginaria del coeficiente de predicción complejo es cero o menor que una tolerancia predeterminada. La desactivación del módulo puede implicar que no se calcule una segunda representación en el dominio en frecuencia de la señal de mezcla descendente para este bloque de tiempo. Si la desactivación no tuvo lugar, la segunda representación en el dominio en frecuencia (por ejemplo, un conjunto de coeficientes MDST) se multiplicaría por cero o por una cantidad de sustancialmente el mismo orden de magnitud que la máquina épsilon (unidad de redondeo) del descodificador o algún otro valor de umbral adecuado.
En un desarrollo adicional de la realización anterior, la economización de los recursos de procesamiento se logra en un subnivel del bloque de tiempo en el que se divide la señal de mezcla descendente. Por ejemplo, tal subnivel dentro de un bloque de tiempo puede ser una banda de frecuencia, en la que el codificador determina un valor del coeficiente de predicción complejo para cada banda de frecuencia dentro de un bloque de tiempo. De manera similar, el módulo para producir una segunda representación en el dominio en frecuencia está adaptado para suprimir su funcionamiento para una banda de frecuencia en un bloque de tiempo para el cual el coeficiente de predicción complejo es cero o tiene magnitud menor que una tolerancia.
En una realización, los primeros componentes espectrales son componentes de la transformada organizados en uno o más bloques de tiempo de coeficientes de la transformada, cada bloque generado por la aplicación de una transformada a un segmento de tiempo de una señal en el dominio en el tiempo. Además, el módulo para calcular una representación en el segundo dominio en frecuencia de la señal de mezcla descendente se adapta para:
• derivar uno o más primeros componentes intermedios de al menos algunos de los primeros componentes espectrales;
• formar una combinación de dichos uno o más primeros componentes espectrales de acuerdo con al menos una parte de una o más respuestas de impulso para obtener uno o más segundos componentes intermedios; y
• derivar dicho uno o más segundos componentes espectrales de dicho uno o más segundos componentes intermedios.
Este procedimiento logra un cálculo de la segunda representación en el dominio en frecuencia directamente desde la primera representación en el dominio en frecuencia, tal como se describe con mayor detalle en el documento US 6.980.933 B2, en particular las columnas 8-28 y en particular su ecuación 41. Como el experto en la materia advierte, el cálculo no se realiza a través del dominio en el tiempo, a diferencia de, por ejemplo, la transformada inversa seguida de una transformada diferente.
Para una realización de un ejemplo de codificación estéreo de predicción compleja, se ha estimado que la complejidad computacional aumenta solo ligeramente (significativamente menos que el aumento causado por la codificación estéreo de predicción compleja en el dominio QMF) en comparación con el estéreo tradicional L/R o M/S. Una realización de este tipo incluyendo el cálculo exacto de los segundos componentes espectrales introduce un retardo que normalmente es solo de un pequeño porcentaje mayor que el introducido por una realización basada en QMF (suponiendo que la longitud del bloque de tiempo sea de 1024 muestras y comparándolo con el retardo del banco híbrido de filtros de análisis/síntesis de QMF, que es de 961 muestras).
Adecuadamente, en al menos algunas de las realizaciones anteriores, las respuestas del impulso se adaptan a la transformada mediante la cual se puede obtener la primera representación en el dominio en frecuencia, y más precisamente de acuerdo con las características de respuesta de frecuencia de las mismas.
En algunas realizaciones, la primera representación en el dominio en frecuencia de la señal de mezcla descendente se obtiene mediante una transformada que se aplica en conexión con una o más funciones de la ventana de análisis (o funciones de corte, por ejemplo, ventana rectangular, ventana sinusoidal, ventana derivada de Kaiser-Bessel, etc.), cuyo objetivo es lograr una segmentación temporal sin introducir una cantidad dañina de ruido o cambiar el espectro de una manera indeseada. Posiblemente, tales funciones de ventana se solapan parcialmente. Entonces, preferiblemente, las características de respuesta en frecuencia de la transformada dependen de las características de dicha una o más funciones de la ventana de análisis.
Todavía con referencia a las realizaciones que caracterizan el cálculo de la segunda representación en el dominio en frecuencia dentro del dominio en frecuencia, es posible disminuir la carga computacional involucrada utilizando una segunda representación aproximada en el dominio en frecuencia. Dicha aproximación se puede lograr al no requerir información completa en la que basar el cálculo. Por las enseñanzas del documento US 6.980.933 B2, por ejemplo, se requieren los primeros datos de dominio en frecuencia de tres bloques de tiempo para el cálculo exacto de la segunda representación en el dominio en frecuencia de la señal de mezcla descendente en un bloque, concretamente un bloque contemporáneo del bloque de salida, un bloque precedente y un bloque subsiguiente. Para el propósito de la codificación de predicción compleja (no cubierto por la invención reivindicada), se pueden obtener aproximaciones adecuadas omitiendo - o reemplazando por cero - datos que emanen del bloque subsiguiente (por lo que el funcionamiento del módulo puede llegar a ser causal, es decir, no contribuye con un retardo) y/o del bloque anterior, de modo que el cálculo de la segunda representación en el dominio en frecuencia se base en datos solo de uno o dos bloques de tiempo. Obsérvese, que, aunque la omisión de los datos de entrada puede implicar un re escalado de la segunda representación en el dominio en frecuencia - en el sentido de que, por ejemplo, ya no representa la misma potencia - todavía se puede utilizar como base para la codificación de predicción compleja siempre que se calcule de manera equivalente en ambos extremos del codificador y del descodificador, como se señaló anteriormente. De hecho, un posible re escalado de este tipo será compensado por un cambio correspondiente del valor del coeficiente de predicción.
Otro método adicional aproximado para calcular un componente espectral que forme parte de la segunda representación en el dominio en frecuencia de la señal de mezcla descendente puede incluir una combinación de al menos dos componentes de la primera representación en el dominio en frecuencia. Los últimos componentes pueden ser contiguos con respecto al tiempo y/o a la frecuencia. Como alternativa, pueden combinarse mediante el filtrado en respuesta de impulsos finitos (FIR), con relativamente pocas tomas. Por ejemplo, en un sistema que aplique un tamaño de bloque de tiempo de 1024, dichos filtros FIR pueden incluir 2, 3, 4 etc. Tomas. Descripciones de métodos aproximados de cálculo de esta naturaleza se pueden encontrar, por ejemplo, en el documento US 2005/0197831 A1. Si una función de ventana que dé ponderaciones considerablemente menores para la vecindad de cada límite de bloque de tiempo, por ejemplo, una función no rectangular, puede ser conveniente basar los segundos componentes espectrales en un bloque de tiempo solo en combinaciones de los primeros componentes espectrales en el mismo bloque de tiempo, lo que implica que no es lo mismo la cantidad de información disponible para los componentes más externos. El error de aproximación posiblemente introducido por tal práctica es, hasta cierto punto, suprimido u oculto por la forma de la función de ventana.
En una realización de un descodificador, que está diseñado para emitir una señal estéreo en el dominio en el tiempo, se incluye la posibilidad de cambiar entre codificación estéreo directa o conjunta y codificación de predicción compleja. Esto se logra mediante la provisión de:
• un conmutador que funcione de forma selectiva, ya sea como una etapa de paso (que no modifica las señales) o como una transformada de suma y diferencia;
• una etapa de transformada inversa para realizar una transformada de frecuencia a tiempo; y
• una disposición de selector para alimentar la etapa de transformada inversa con una señal codificada directa (o conjuntamente) o con una señal codificada por predicción compleja.
Como pueden advertir los expertos, tal flexibilidad sobre la parte del descodificador da la latitud del codificador para elegir entre la codificación directa o conjunta convencional y la codificación de predicción compleja. Por lo tanto, en los casos en que el nivel de calidad de la codificación estéreo L/R directa convencional o la codificación estéreo M/S conjunta no pueda ser superada, esta realización puede garantizar al menos que se mantenga el mismo nivel. Por lo tanto, el descodificador de acuerdo con esta realización se puede considerar como un superconjunto con respecto a la técnica relacionada.
Otro grupo de realizaciones del sistema descodificador realiza el cálculo de los segundos componentes espectrales en la segunda representación en el dominio en frecuencia a través del dominio en el tiempo Más precisamente, se aplica una inversa de la transformada mediante la cual se obtuvieron (o se pueden obtener) los primeros componentes espectrales y seguido por una transformada diferente que tiene como salida los segundos componentes espectrales. En particular, una MDCT inversa puede ir seguida de una MDST. Con el fin de reducir el número de transformadas y transformadas inversas, la salida de la MDCT inversa puede, en tal realización, alimentar tanto a la MDST como a los terminales de salida (posiblemente precedidos por etapas adicionales de procesamiento) del sistema de descodificación.
Para una realización de ejemplo de codificación estéreo de predicción compleja, se ha estimado que la complejidad computacional aumenta solo ligeramente (aun significativamente menor que el aumento causado por la codificación estéreo de predicción compleja en el dominio QMF) en comparación con el estéreo L/R o M/S tradicional.
Como un desarrollo adicional de la realización mencionada en el párrafo precedente, la etapa de mezcla ascendente puede comprender una etapa de transformada inversa adicional para procesar la señal lateral. Entonces, la etapa de suma y diferencia se suministra con una representación en el dominio en el tiempo de la señal lateral, generada por dicha etapa de transformada inversa adicional, y una representación en el dominio en el tiempo de la señal de mezcla descendente, generada por la etapa de transformada inversa ya referida. Se recuerda que, ventajosamente desde el punto de vista de la complejidad de cálculo, la última señal se suministra tanto a la etapa de suma y diferencia como a dicha etapa de transformada diferente mencionada anteriormente.
En una realización, un descodificador diseñado para enviar una señal estéreo en el dominio en el tiempo incluye la posibilidad de conmutar entre la codificación estéreo L/R directa o la codificación estéreo conjunta M/S y la codificación estéreo de predicción compleja. Esto se consigue mediante:
• un conmutador que funciona como etapa de paso o como etapa de suma y diferencia;
• otra etapa de transformada inversa para calcular una representación en el dominio en el tiempo de la señal lateral;
• una disposición de selector para conectar las etapas de transformadas inversas a una etapa adicional de suma y diferencia conectada a un punto aguas arriba de la etapa de mezcla ascendente y aguas abajo del conmutador (preferiblemente cuando el conmutador se ha activado para funcionar como un filtro de paso, como puede ser el caso en la descodificación de una señal estéreo generada por la codificación de predicción compleja) o una combinación de una señal de mezcla descendente procedente del conmutador y una señal lateral procedente del sumador ponderado (preferiblemente cuando el conmutador ha sido activado para funcionar como una etapa de suma y diferencia, como puede ser el caso en la descodificación de una señal estéreo codificada directamente).
Como pueden advertir los expertos, esto le da al codificador la libertad de elegir entre la codificación directa o conjunta convencional y la codificación de predicción compleja, lo que significa que se puede garantizar un nivel de calidad al menos equivalente al de la codificación estéreo directa o conjunta.
En una realización, el codificador (no cubierto por la invención reivindicada), puede comprender un estimador para estimar el coeficiente de predicción complejo con el objetivo de reducir o minimizar la potencia de la señal o la potencia media de la señal residual. La minimización puede tener lugar en un intervalo de tiempo, preferiblemente un segmento de tiempo o bloque de tiempo o trama de tiempos de la señal a codificar. El cuadrado de la amplitud puede tomarse como una medida de la potencia de señal momentánea, y se puede tomar una integral en un intervalo de tiempo de la amplitud al cuadrado (forma de onda) como una medida de la potencia media de la señal en ese intervalo. Adecuadamente, el coeficiente de predicción complejo se determina sobre una base de tiempo y banda de frecuencia, es decir, su valor se establece de tal manera que reduce la potencia media (es decir, la energía total) de la señal residual en ese bloque de tiempo y banda de frecuencia. En particular, los módulos para estimar los parámetros de codificación estéreo paramétricos, como IID, ICC e IPD o similares, pueden proporcionar resultados en los que el coeficiente de predicción complejo se puede calcular de acuerdo con las relaciones matemáticas conocidas por los expertos.
En una realización (no cubierta por la invención reivindicada), la etapa de codificación del sistema codificador funciona, además, para servir como etapa de paso, así como para habilitar la codificación estéreo directa. Al seleccionar la codificación estéreo directa en situaciones donde se espera que esto proporcione una mayor calidad, el sistema codificador puede garantizar que la señal estéreo codificada tenga al menos la misma calidad que en la codificación directa. De manera similar, en situaciones donde el mayor esfuerzo computacional que tiene lugar por la codificación de predicción compleja no está motivado por un aumento significativo de la calidad, la opción de economizar los recursos computacionales está por tanto disponible para el sistema codificador. La decisión entre la codificación conjunta, directa, predicción real y predicción compleja en el codificador se basa generalmente en una optimización racional velocidad/distorsión.
En una realización (no cubierta por la invención reivindicada), el sistema codificador puede comprender un módulo para calcular una segunda representación en el dominio en frecuencia directamente (es decir, sin aplicar una transformada inversa en el dominio en el tiempo y sin usar los datos en el dominio en el tiempo de la señal) basándose en los primeros componentes espectrales. En relación con las realizaciones correspondientes del sistema descodificador descrito anteriormente, este módulo puede tener una estructura análoga, es decir, comprender concretamente las operaciones de procesamiento análogas, pero en un orden diferente, de modo que el codificador se adapte a los datos de salida adecuados como entrada en el lado del descodificador. Con el propósito de ilustrar esta realización, se supone que la señal estéreo a codificar comprende canales medios y laterales, o se ha transformado en esta estructura, y la etapa de codificación está adaptada para recibir una primera representación en el dominio en frecuencia. La etapa de codificación comprende un módulo para calcular una segunda representación en el dominio en frecuencia del canal medio. (La primera y segunda representaciones en el dominio en frecuencia a las que se hace referencia aquí son las definidas anteriormente; en particular, las primeras representaciones en el dominio en frecuencia pueden ser una representación MDCT y la segunda representación en el dominio en frecuencia puede ser una representación MDST.) La etapa de codificación comprende además un sumador ponderado para calcular una señal residual como una combinación lineal formada a partir de la señal lateral y las dos representaciones en el dominio en frecuencia de la señal del canal medio, ponderada por las partes real e imaginaria, respectivamente, del coeficiente de predicción complejo. La señal del canal medio, o adecuadamente la primera representación en el dominio en frecuencia de la misma, puede ser usada directamente como una señal de mezcla descendente. En esta realización, además, el estimador determina el valor del coeficiente de predicción complejo con el objetivo de minimizar la potencia o potencia media de la señal residual. La operación final (optimización) puede efectuarse mediante el control de realimentación, en donde el estimador puede recibir la señal residual obtenida por los valores actuales del coeficiente de predicción para ajustarse aún más si es necesario, o, de una manera de alimentación directa, por cálculos efectuados directamente sobre los canales izquierdo/derecho de una señal estéreo original o los canales medios/laterales. El método de alimentación directa es el preferido, por el cual el coeficiente de predicción complejo se determina directamente (en particular, de una manera no iterativa o sin realimentación) basándose en la primera y la segunda representación en el dominio en frecuencia de la señal del canal medio y en la primera representación en el dominio en frecuencia de la señal lateral. Obsérvese que la determinación del coeficiente de predicción complejo puede ser seguido por una decisión de si aplicar la codificación de predicción directa, conjunta, real o de predicción compleja, en donde se considera la calidad resultante (preferiblemente la calidad de percepción, teniendo en cuenta, por ejemplo, los efectos de señal a enmascaramiento) de cada opción disponible; por lo tanto, las declaraciones anteriores no se deben interpretar al efecto de que no exista mecanismo de realimentación en el codificador.
En una realización (no cubierta por la invención reivindicada), el sistema codificador comprende módulos para calcular una segunda representación en el dominio en frecuencia de la señal del canal medio (o de mezcla descendente) a través del dominio en el tiempo. Se entiende que los detalles de ejecución relacionados con esta realización, al menos en lo que respecta al cálculo de la segunda representación en el dominio en frecuencia, es similar o se puede resolver de manera análoga a las correspondientes realizaciones del descodificador. En esta realización del sistema codificador (no cubierta por la invención reivindicada), la etapa de codificación comprende:
• una etapa de suma y diferencia para convertir la señal estéreo en una forma que comprende canales medios y laterales;
• una etapa de transformación para proporcionar una representación en el dominio en frecuencia del canal lateral y una representación en el dominio en frecuencia de valor complejo (y, por lo tanto, sobre muestreada) del canal medio; y
• una suma ponderada para calcular una señal residual, en la que el coeficiente de predicción complejo se utiliza como ponderación.
Aquí, el estimador puede recibir la señal residual y determinar, posiblemente en modo de control de realimentación, el coeficiente de predicción complejo para reducir o minimizar la potencia o la media de la señal residual. Preferiblemente, sin embargo, el estimador recibe la señal estéreo que se va a codificar y determina el coeficiente de predicción sobre esa base. Es ventajoso desde el punto de vista de la economía computacional usar una representación en el dominio en frecuencia muestreada críticamente en el canal lateral, ya que este último no se someterá a la multiplicación por un número complejo en esta realización. Adecuadamente, la etapa de transformación puede comprender una etapa MDCT y una etapa MDST dispuestas en paralelo, ambas con representación en el dominio en el tiempo del canal medio como entrada. Por lo tanto, se produce una representación en el dominio en frecuencia sobre muestreada del canal medio y una representación en el dominio en frecuencia muestreada críticamente del canal lateral.
Obsérvese que los métodos y aparatos descritos en esta sección pueden aplicarse, después de las modificaciones apropiadas dentro de las capacidades del experto en la materia, incluida la experimentación rutinaria, a la codificación de señales que tienen más de dos canales. Las modificaciones en dicha funcionabilidad multicanal pueden tener lugar, por ejemplo, a lo largo de las líneas de las secciones 4 y 5 en el documento de J. Herre et al. citado anteriormente.
Las características de dos o más realizaciones descritas anteriormente pueden combinarse, a menos que sean claramente complementarias, en otras realizaciones. Del mismo modo, realizaciones adicionales pueden ser proporcionadas con la omisión de ciertas características que no sean necesarias o esenciales de acuerdo con las reivindicaciones independientes. Como ejemplo, el sistema de descodificación de acuerdo con la invención puede realizarse sin una etapa de des cuantificación en los casos en que la señal codificada a procesar no esté cuantificada o esté ya disponible de una forma adecuada para ser procesada por la etapa de mezcla ascendente.
Breve descripción de los dibujos
La invención se ilustrará ahora más detalladamente mediante las realizaciones descritas en la siguiente sección, haciendo referencia a los dibujos adjuntos, en los que:
la figura 1 consiste en dos diagramas de bloques generalizados que muestran descodificadores basados en QMF de acuerdo con la técnica anterior;
la figura 2 es un diagrama de bloques generalizado de un sistema de descodificación estéreo basado en MDCT con predicción compleja, de acuerdo con una realización de la presente invención, en el que la representación compleja de un canal de la señal a descodificar se computa en el dominio en frecuencia;
la figura 3 es un diagrama de bloques generalizado de un sistema descodificador estéreo basado en MDCT con predicción compleja, de acuerdo con una realización de la presente invención, en el que la representación compleja de un canal de la señal a descodificar se computa en el dominio en el tiempo;
la figura 4 muestra una realización alternativa del sistema descodificador de la figura 2, en la que la posición de la etapa TNS activa se puede seleccionar;
la figura 5 comprende diagramas de bloques generalizados que muestran sistemas de codificador estéreo basados en MDCT con predicción compleja, de acuerdo con realizaciones (no cubiertas por la invención reivindicada);
la figura 6 es un diagrama de bloques generalizado de un sistema codificador estéreo basado en MDCT con predicción compleja, de acuerdo con una realización (no cubierta por la invención reivindicada), en el que se computa una representación compleja de un canal de la señal a codificar basándose en la representación en el dominio en el tiempo de la misma;
la figura 7 muestra una realización alternativa del sistema codificador de la figura 6, que funciona también en un modo de codificación directa L/R;
la figura 8 es un diagrama de bloques generalizado de un sistema codificador estéreo basado en MDCT con predicción compleja, de acuerdo con una realización (no cubierta por la invención reivindicada), en el que una representación compleja de un canal de la señal a ser codificada se calcula basándose en una primera representación en el dominio en frecuencia, cuyo sistema descodificador funciona también en un modo de codificación directa L/R;
la figura 9 muestra una realización alternativa del sistema codificador de la figura 7, que incluye además una etapa TNS dispuesta aguas abajo de la etapa de codificación;
la figura 10 muestra realizaciones alternativas de la parte etiquetada A en las figuras 2 y 8;
la figura 11 muestra una realización alternativa del sistema codificador de la figura 8, que incluye además dos dispositivos de modificación en el dominio en frecuencia dispuestos respectivamente aguas abajo y aguas arriba de la etapa de codificación;
la figura 12 es una presentación gráfica de los resultados de las pruebas de audición a 96 kb/s de seis casos que muestran opciones de diferente complejidad - equilibrio costo/calidad - para el cálculo o la aproximación del espectro MDST, en donde los puntos de datos etiquetados "+" se refieren a referencia oculta, "X" se refieren a anclaje limitado a la banda de 3.5 kHz, " * " se refiere al estéreo tradicional USAC (M/S o L/R), " □ " se refiere a la codificación estéreo unificada en el dominio MDCT por predicción compleja con parte imaginaria del coeficiente de predicción desactivado (es decir, predicción de valor real, que no requiere MDST), " ■ " se refiere a la codificación estéreo unificada en el dominio MDCT por predicción compleja utilizando una trama MDCT actual para calcular una aproximación de la MDST, “ o " se refiere a la codificación estéreo unificada en el dominio MDCT por predicción compleja usando las tramas MDCT actuales y anteriores para calcular una aproximación de la MDST y " • " se refieren a la codificación estéreo unificada en el dominio MDCT por predicción compleja utilizando las tramas MDCT actuales, anteriores y siguientes para calcular la MDST;
la figura 13 presenta los datos de la figura 12, sin embargo, como puntuaciones diferenciales relativas a la codificación estéreo unificada en el dominio MDCT por predicción compleja utilizando una trama MDCT actual para calcular una aproximación de la MDST;
la figura 14 comprende diagramas de bloques generalizados que muestran tres realizaciones de un sistema descodificador; de acuerdo con realizaciones de la invención;
la figura 15 es un diagrama de flujo que muestra un método de descodificación de acuerdo con una realización de la invención; y
la figura 16 es un diagrama de flujo que muestra un método de codificación (no cubierto por la invención reivindicada).
Descripción detallada de las realizaciones
I. Sistemas descodificadores
La figura 2 muestra, en forma de un diagrama de bloques generalizado, un sistema de descodificación para descodificar un flujo de bits que comprende al menos un valor de un coeficiente de predicción complejo a = an iai y una representación MDCT de una señal estéreo que tiene canales M de mezcla descendente y D residuales. Las partes real e imaginaria an , iai del coeficiente de predicción pueden haber sido cuantificadas y/o codificadas conjuntamente. Sin embargo, preferiblemente, las partes real e imaginaria se cuantifican independiente y uniformemente, normalmente con un tamaño de escalón 0,1 (sin dimensiones). La resolución de banda de frecuencia utilizada para el coeficiente de predicción complejo no es necesariamente la misma que la resolución para las bandas de factores de escala (sfb; por ejemplo, un grupo de líneas MDCT que utilizan el mismo tamaño de escalón de cuantificación y rango de cuantificación de MDCT) de acuerdo con la norma MPEG. En particular, la resolución de la banda de frecuencia para el coeficiente de predicción puede ser una que esté psico acústicamente justificada, como la escala de Bark. Un des multiplexor 201 está adaptado para extraer estas representaciones de la MDCT y el coeficiente de predicción (parte de la Información de Control como se indica en la figura) del flujo de bits que se le suministra. De hecho, se puede codificar en el flujo de bits más información de control que simplemente el coeficiente de predicción complejo, por ejemplo, instrucciones si el flujo de bits se va a descodificar en modo de predicción o no, la información del TNS, etc. La información del TNS puede incluir los valores de los parámetros TNS que se aplicarán por los filtros TNS (síntesis) del sistema descodificador. Si se van a usar conjuntos idénticos de parámetros TNS para varios filtros TNS, como para ambos canales, es económico recibir esta información en forma de un bit que indique dicha identidad de los conjuntos de parámetros en lugar de recibir los dos conjuntos de parámetros de forma independiente. También se puede incluir información sobre si aplicar el TNS antes o después de la etapa de mezcla ascendente, según corresponda basándose en, por ejemplo, una evaluación psico acústica de las dos opciones disponibles. Además, la información de control puede indicar anchos de banda individualmente limitados para las señales de mezcla descendente y residual. Para cada canal, las bandas de frecuencia por encima de un límite de ancho de banda no se descodificarán, sino que se pondrán a cero. En ciertos casos, las bandas de frecuencia más altas tienen un contenido de energía tan pequeño que ya están cuantificadas a cero. La práctica normal (véase el parámetro max_sfb en la norma MPEG) ha sido utilizar la misma limitación de ancho de banda para las señales de mezcla descendente y residual. Sin embargo, la señal residual, en mayor medida que la señal de mezcla descendente, tiene su contenido de energía localizado en bandas de frecuencia más bajas. Por lo tanto, colocando un límite de ancho de banda superior especial en la señal residual, es posible una reducción de la velocidad de bits sin pérdida significativa de la calidad. Por ejemplo, esto puede ser manejado por dos parámetros max_sfb independientes codificados en el flujo de bits, uno para la señal de mezcla descendente y otro para la señal residual.
En esa realización, la representación MDCT de la señal estéreo está segmentada en tramas de tiempo sucesivas (o bloques de tiempo) que comprenden un número fijo de puntos de datos (por ejemplo, 1024 puntos), uno de varios números fijos de puntos de datos (por ejemplo, 128 o 1024 puntos) o un número variable de puntos. Como conocen los expertos en la técnica, la MDCT se muestrea críticamente. La salida del sistema de descodificación, indicada en la parte derecha del dibujo, es una señal estéreo en el dominio en el tiempo que tiene los canales izquierdo L y derecho R. Los módulos 202 de des cuantificación están adaptados para manejar la entrada del flujo de bits al sistema de descodificación o, cuando corresponda, dos flujos de bits obtenidos después de la desmultiplexión de un flujo de bits originales y correspondientes a cada uno de los canales de mezcla descendente y residual. Las señales del canal des cuantificado se proporcionan a un conjunto de conmutación 203 que funciona en modo de paso o en modo suma y diferencia correspondiente a las respectivas matrices de la transformada
Figure imgf000011_0001
y
i f 1 1
2 L l -1 - '
Como se describirá más adelante en el siguiente párrafo, el sistema descodificador incluye un segundo conjunto de conmutación 205. Ambos conjuntos de conmutación 203, 205, como la mayoría de los otros conmutadores y conjuntos de conmutación en esta realización y en las realizaciones a describir, funcionan en un modo selectivo en frecuencia. Esto permite la descodificación de una gran variedad de modos de descodificación, por ejemplo, descodificación L/R o M/S dependiente de la frecuencia, como se conoce en la técnica relacionada. Por lo tanto, el descodificador de acuerdo con la invención puede considerarse como un super conjunto en relación con la técnica relacionada.
Suponiendo por ahora que el conjunto de conmutación 203 está en el modo de paso, las señales del canal des cuantificadas pasan, en esta realización, a través de los respectivos filtros TNS 204. Los filtros TNS 204 no son esenciales para el funcionamiento del sistema de descodificación y pueden ser reemplazados por elementos de paso. Después de esto, la señal se suministra al segundo conjunto de conmutación 205 que tiene la misma funcionalidad que el conjunto de conmutación 203 situado aguas arriba. Con las señales de entrada como las descritas anteriormente y con el segundo conjunto de conmutación 205 establecido en su modo de paso es, la salida del anterior es la señal del canal de mezcla descendente y la señal del canal residual. La señal de mezcla descendente, aún representada por sus espectros MDCT sucesivos en el tiempo, se suministra a una transformada 206 real a imaginaria adaptada para calcular basándose en ello, el espectro MDST de la señal de mezcla descendente. En esta realización, una trama MDST se basa en tres tramas MDCT, una trama anterior, una trama actual (o contemporánea) y una trama posterior. Esto se indica simbólicamente por (Z-1, Z) que el lado de entrada de la transformada real a imaginaria 206 comprende los componentes de retardo.
La representación MDST de la señal mezcla descendente obtenida de la transformada real a imaginaria 206 es ponderada por la parte imaginaria ai del coeficiente de predicción y se agrega a la representación MDCT de la señal de mezcla descendente ponderada por la parte real aR del coeficiente de predicción y la representación MDCT de la señal residual. Las dos adiciones y multiplicaciones se realizan mediante multiplicadores y sumadores 210, 211, formando juntos (funcionalmente) un sumador ponderado, que se suministran con el valor del coeficiente de predicción complejo a codificado en el flujo de bits recibido inicialmente por el sistema descodificador. El coeficiente de predicción complejo se puede determinar una vez por cada trama de tiempo. También puede determinarse más a menudo, tal como una vez para cada banda de frecuencia dentro de una trama, siendo las bandas de frecuencia una partición motivada psico acústicamente. También se puede determinar con menos frecuencia, como se describirá a continuación en relación con los sistemas de codificación (no cubiertos por la invención). La transformada real a imaginaria 206 se sincroniza con el sumador ponderado de tal manera que una trama MDST actual de la señal del canal de mezcla descendente se combina con unas tramas MDCT contemporáneas de cada una de las señales del canal de mezcla descendente y de la señal del canal residual. La suma de estas tres señales son una señal lateral S = Re {aM} D. En esta expresión, M incluye las representaciones MDCT y MDST de la señal de mezcla descendente, es decir, M = Mmdct - ÍMmdst, mientras que D = Dmdct tiene un valor real. Así, se obtiene una señal estéreo que tiene un canal de mezcla descendente y un canal lateral, a partir del cual una transformada de suma y diferencia 207 restaura los canales izquierdo y derecho de la siguiente manera:
( L = M S
l R = M - S
Estas señales están representadas en el dominio MDCT. La última etapa del sistema de codificación consiste en aplicar una MDCT 209 inversa a cada uno de los canales, por lo que se obtiene una representación en el dominio en el tiempo de la señal estéreo izquierdo/derecho.
Una posible ejecución de la transformada real a imaginaria 206 se describe con más detalle en la patente del solicitante US 6.980.933 B2, como se indicó anteriormente. Por la fórmula 41 del documento, la transformada se puede expresar como un filtro finito de respuesta al impulso, por ejemplo, para puntos pares,
2 v
5(2 v ) = ñ
p L = o [(_l)p+1 Xi (p)+ Xw ip)]h,jn (2 v _ p)
N—l
+í Z ¡ =o x,,(2í+1)M2v_2i_1)j
donde S (2v) es el 2v° punto de datos MDST, X i, X ii, X w, son los datos MDCT de cada una de las tramas y N es la longitud de la trama. Además, hijii, hii son respuestas del impulso según la función de ventana aplicada y, por lo tanto, se determinan para cada opción de función de ventana, tal como rectangular, sinusoidal y derivada de Kaiser-Bessel, y para cada longitud de trama. La complejidad de este cálculo puede reducirse omitiendo aquellas respuestas del impulso que tengan un contenido de energía relativamente menor y contribuyan relativamente menos a los datos MDST. Como alternativa o extensión a esta simplificación, las propias respuestas de impulso pueden acortarse, por ejemplo, desde la longitud completa de la trama N a un número menor de puntos. Como ejemplo, la longitud de la respuesta del impulso puede disminuirse de 1024 puntos (tomas) a 10 puntos. El truncado más extremo que aún puede considerarse significativo es
Otros enfoques directos se pueden encontrar en el documento US 2005/0197831 A1.
También es posible reducir la cantidad de datos de entrada en los que se basa el cálculo. Para ilustrarlo, la transformada real a imaginaria 206 y sus conexiones aguas arriba, que se indican como una parte indicada por "A" en el dibujo, deben reemplazarse por una variante simplificada, dos de las cuales A' y A" se muestran en la figura 10. La variante A' proporciona una representación imaginaria aproximada de la señal. Aquí, el cálculo de MDST solo toma en cuenta la trama actual y la anterior. Con referencia a la fórmula anterior en este párrafo, esto puede efectuarse estableciendo Xiii (p) = 0 para p = 0, N -1 (el índice III indica el período de tiempo subsiguiente). Dado que la variante A' no requiere el espectro MDCT de la trama subsiguiente como entrada, el cálculo de MDST no incurre en ningún retardo de tiempo. Claramente, esta aproximación reduce algo la precisión de la señal de MDST obtenida, pero también puede implicar que la energía de esta señal se reduzca; este último hecho puede ser compensado completamente por un aumento en ai como resultado de la naturaleza de la codificación de predicción.
También se muestra en la figura 10 la variante A", que utiliza como entrada solo los datos de MDCT para la trama de tiempo actual. La variante A" podría decirse que produce una representación de MDST menos precisa que la variante A'. Por otro lado, funciona con retardo cero, al igual que la variante A', y tiene menor complejidad computacional. Como ya se mencionó, las propiedades de codificación de la forma de onda no se ven afectadas siempre que se utilice la misma aproximación en el sistema codificador y en el sistema descodificador.
Debe observarse, independientemente de qué variante A, A' o A" o cualquier otro desarrollo de lo mismo se utilice, que solo es necesario calcular aquellas partes del espectro de la MDST para las cuales la parte imaginaria del coeficiente de predicción complejo no sea cero, ai í 0. En circunstancias prácticas, esto se tomará para significar que el valor absoluto | ai | de toda la parte imaginaria del coeficiente es mayor que un valor de umbral predeterminado, que puede estar relacionado con el redondeo unitario del hardware utilizado. En caso de que la parte imaginaria del coeficiente sea cero para todas las bandas de frecuencia dentro de una trama de tiempo, no hay necesidad de calcular ningún dato de la MDST para esa trama. Por lo tanto, adecuadamente, la transformada real a imaginaria 206 se adapta para responder a que existan valores | ai | muy pequeños al no generar una salida MDST, por lo que los recursos de computación se pueden economizar. En realizaciones donde se utilicen más tramas que la actual para producir una trama de datos MDST, sin embargo, cualesquiera unidades aguas arriba de la transformada 206 deben continuar funcionando adecuadamente aunque no se necesite el espectro MDST, en particular, el segundo conjunto de conmutación 205 debe seguir enviando espectros MDCT, de modo que ya haya suficientes datos de entrada disponibles para la transformada real a imaginaria 206 cuando se produzca la siguiente trama de tiempo asociada con un coeficiente de predicción distinto de cero; este puede ser, por supuesto, el siguiente bloque de tiempo.
Volviendo a la figura 2, la función del sistema de descodificación ha sido descrita bajo el supuesto de que ambos conjuntos de conmutación 203, 205 se ajusten en sus respectivos modos de paso. Como se explicará ahora, el sistema de codificación también puede descodificar señales que no estén codificadas por predicción. Para este uso, el segundo conjunto de conmutación 205 se establecerá en su modo de suma y diferencia y adecuadamente, como se indica en el dibujo, se establecerá un conjunto de selector 208 en su posición inferior, asegurando así que las señales alimenten directamente a la transformada inversa 209 desde un punto de origen entre los filtros TNS 204 y el segundo conjunto de conmutación 205. Para garantizar la correcta descodificación, la señal tiene adecuadamente forma L/R en el punto de origen. Por lo tanto, para asegurar que la transformada real a imaginaria se suministre con la señal del canal medio, correcta (es decir, mezcla descendente) en todo momento (en lugar de, digamos, intermitentemente por medio de una señal izquierdo), el segundo conjunto de conmutación 205 se establece preferiblemente en su modo de suma y diferencia durante la descodificación de una señal estéreo no codificada por predicción. Como se señaló anteriormente, la codificación de predicción puede reemplazarse por codificación directa o conjunta para ciertas tramas basadas en, por ejemplo, una decisión de calidad de datos de velocidad a audio. El resultado de tal decisión puede comunicarse desde el codificador al descodificador de varias maneras, por ejemplo, mediante el valor de un bit indicador especial en cada trama, o mediante la ausencia o presencia de un valor del coeficiente de predicción. Habiendo establecido estos hechos, el rol del primer conjunto de conmutación 203 se puede realizar fácilmente. De hecho, en el modo de codificación sin predicción, el sistema descodificador puede procesar ambas señales de acuerdo con la codificación estéreo directa (L/R) o codificación conjunta (M/S), y al funcionar el primer conjunto de conmutación 203 ya sea en modo de paso o de suma y diferencia, es posible asegurar de que el punto de origen siempre esté provisto de una señal codificada directamente. Claramente, el conjunto de conmutación 203 cuando funciona como etapa de suma y diferencia convertirá una señal de entrada de forma M/S en una señal de salida (suministrada a los filtros 204 TNS opcionales) en forma L/R.
El sistema descodificador recibe una señal si una trama de tiempo en particular tiene que ser descodificada por el sistema descodificador en modo de codificación de predicción o no predicción. El modo de no predicción puede ser señalizado por el valor de un bit indicador especial en cada trama o por la ausencia (o el valor cero) del coeficiente de predicción. El modo de predicción se puede comunicar de forma análoga. Una ejecución particularmente ventajosa, que permite el repliegue sin ningún tipo de sobrecarga, utiliza un cuarto valor reservado del campo de dos bits ms_mask_present (véase MPEG-2 AAC, documento ISO/IEC 13818-7), que se transmite por trama de tiempo y se define de la siguiente manera:
Figure imgf000014_0001
Al redefinir el valor 11 para que signifique "codificación de predicción compleja", el descodificador puede funcionar en todos los modos antiguos, particularmente en la codificación M/S y L/R, sin ninguna penalización por velocidad de bits y aún es capaz de recibir una señal que indique el modo codificación de predicción compleja para las tramas relevantes.
La figura 4 muestra un sistema descodificador de la misma estructura general que la que se muestra en la figura 2 pero que incluye, sin embargo, al menos dos estructuras diferentes. En primer lugar, el sistema de la figura 4 incluye los conmutadores 404, 411 que permiten la aplicación de algunas etapas de procesamiento que involucran la modificación en el dominio de la frecuencia aguas arriba y/o aguas abajo de la etapa de mezcla ascendente. Esto se logra, por un lado, mediante un primer conjunto de modificadores en el dominio en frecuencia 403 (dibujados como filtros de síntesis TNS en esta figura) provistos junto con el primer conmutador 404 aguas abajo de los módulos de des cuantificación 401 y de un primer conjunto de conmutación 402 pero aguas arriba de un segundo conjunto de conmutación 405 dispuesto inmediatamente aguas arriba de la etapa de mezcla ascendente 406, 407, 408, 409. Por otra parte, el sistema de descodificación incluye un segundo conjunto de modificadores en el dominio en frecuencia 410 provistos junto con un segundo conmutador 411 aguas abajo de la etapa de mezcla ascendente 406, 407, 408, 409 pero aguas arriba de una etapa de transformada inversa 412. Ventajosamente, como se indica en el dibujo, cada modificador en el dominio en frecuencia se dispone en paralelo con una línea de paso que está conectada aguas arriba al lado de entrada del modificador en el dominio en frecuencia y está conectado aguas abajo al conmutador asociado. En virtud de esta estructura, el modificador en el dominio en frecuencia se suministra con los datos de la señal en todo momento, lo que permite el procesamiento en el dominio en frecuencia basándose en más tramas de tiempo que el actual. La decisión de aplicar el primer 403 o el segundo de los conjuntos de modificadores en el dominio en frecuencia 410, puede ser tomada por el codificador (y transmitido en el flujo de bits), o se puede basar en si se aplica la codificación de predicción, o puede basarse en algún otro criterio encontrado adecuado en circunstancias prácticas. Como ejemplo, si el modificador en el dominio en frecuencia son filtros TNS, entonces el primer conjunto 403 puede ser ventajoso para usar para algunos tipos de señales, mientras que el segundo conjunto 410 puede ser ventajoso para otros tipos de señales. Si el resultado de esta selección se codifica en el flujo de bits, entonces el sistema descodificador activará el respectivo conjunto de filtros TNS en consecuencia.
Para facilitar la comprensión del sistema descodificador que se muestra en la figura 4, se señala explícitamente que la descodificación de una señal codificada directamente (L/R) tiene lugar cuando a = 0 (lo que implica que pseudo-L/R y L/R son idénticos y que los canales lateral y residual no difieren), el primer conjunto de conmutación 402 está en modo de paso, el segundo conjunto de conmutación está en el modo de suma y diferencia, lo que hace que la señal tenga una forma M/S entre el segundo conjunto de conmutación 405 y una etapa de suma y diferencia 409 de la etapa de mezcla ascendente. Debido a que la etapa de mezcla ascendente será efectivamente una etapa de paso, es irrelevante si (usando los respectivos conmutadores 404, 411) el primero o el segundo conjunto de modificadores en el dominio en frecuencia está activado.
La figura 3 ilustra un sistema de descodificación de acuerdo con una realización de la invención, la cual, en relación con los de las figuras 2 y 4, representa un enfoque diferente a la provisión de datos MDST requeridos para la mezcla ascendente. Semejante a los sistemas de descodificación ya descritos, el sistema de la figura 3 comprende módulos de des cuantificación 301, un primer conjunto de conmutación 302 que puede funcionar en modo de paso o suma y diferencia y filtros TNS (síntesis) 303, que están todos dispuestos en serie desde el extremo de entrada del sistema descodificador. Los módulos aguas abajo de este punto se utilizan selectivamente por medio de dos segundos conmutadores 305, 310, que funcionan preferiblemente de manera conjunta de forma que ambos se encuentren en sus posiciones superior o inferior, como se indica en la figura. En el extremo de salida del sistema descodificador, hay una etapa de suma y diferencia 312 y, inmediatamente aguas arriba de ella, dos módulos MDCT inversos 306, 311 para transformar una representación en el dominio MDCT de cada canal en una representación en el dominio en el tiempo.
En la descodificación de predicción compleja, donde el sistema descodificador se suministra con un flujo de bits que codifica una señal estéreo de mezcla descendente/residual y los valores de un coeficiente de predicción complejo, el primer conjunto de conmutación 302 se establece en su modo de paso y los segundos conmutadores 305, 310 se establecen en la posición superior. Aguas abajo de los filtros TNS, los dos canales de la señal estéreo (des cuantificada, filtrada por TNS, MDCT) se procesan de diferentes maneras. El canal de mezcla descendente se proporciona, por un lado, a un multiplicador y a un sumador 308, que agrega la representación MDCT del canal de mezcla descendente ponderada por la parte real aR del coeficiente de predicción a la representación MDCT del canal residual, y, por otro lado, a uno 306 de los módulos de transformada inversa MDCT. Se proporciona la representación en el dominio en el tiempo del canal M de mezcla descendente, que es la salida del módulo de la transformada inversa MDCT 306 tanto para la etapa final de suma y diferencia 312 como para un módulo de la transformada MDST 307. Este doble uso de la representación en el dominio en el tiempo del canal de mezcla descendente es ventajoso desde el punto de vista de la complejidad computacional. La representación MDST del canal de mezcla descendente así obtenida se suministra a un multiplicador y sumador adicional 309, que después de ponderar por medio de la parte imaginaria ai del coeficiente de predicción agrega esta señal a la salida de combinación lineal del sumador 308; por lo tanto, la salida del sumador 309 es una señal del canal lateral, S = Re {aM} D. De manera similar al sistema de descodificación que se muestra en la figura 2, los multiplicadores y sumadores 308, 309 se pueden combinar fácilmente para formar un sumador ponderado multiseñal con entradas de las representaciones MDCT y MDST de la señal de mezcla descendente, la representación MDCT de la señal residual y el valor del coeficiente de predicción complejo. Aguas abajo de este punto en la presente realización, solo un paso a través del módulo de la transformada inversa MDCT 311 permanece antes de que la señal del canal lateral se suministre a la etapa 312 de suma y diferencia final.
La necesaria sincronización en el sistema descodificador se puede lograr aplicando las mismas longitudes de transformada y formas de ventana en ambos módulos de la transformada inversa MDCT 306, 311, como ya es una práctica en la codificación selectiva en frecuencia M/S y L/R. Se introduce un retardo de una trama mediante la combinación de ciertas realizaciones del módulo inverso MDCT 306 y las realizaciones del módulo MDST 307. Por lo tanto, se proporcionan cinco bloques de retardo 313 opcionales (o instrucciones de software a este efecto en una ejecución de ordenador), de modo que la parte del sistema situada a la derecha de la línea discontinua se pueda retardar una trama en relación con la parte izquierda cuando sea necesario. Aparentemente, todas las intersecciones entre la línea discontinua y las líneas de conexión están provistas de bloques de retardo, con la excepción de la línea de conexión entre el módulo inverso MDCT 306 y el módulo de la transformada MDST 307, que es donde surge el retardo que requiere compensación.
El cálculo de datos de la MDST para una trama de tiempo requiere datos de una trama de la representación en el dominio en el tiempo. Sin embargo, la transformada inversa MDCT se basa en una (actual), dos (preferiblemente: anterior y actual) o tres (preferiblemente: anterior, actual y siguiente) tramas consecutivas. En virtud de la conocida cancelación de alias en el dominio en el tiempo (TDAC) asociada con la MDCT, la opción de tres tramas logra la superposición completa de las tramas de entrada y, por lo tanto, proporciona la mejor precisión (y posiblemente perfecta), al menos en tramas que contienen un alias en el dominio en el tiempo. Claramente, las tres tramas inversas MDCT funcionan con un retardo de una trama. Al aceptar usar una representación en el dominio en el tiempo aproximada como entrada a la transformada MDST, se puede evitar este retardo y por lo tanto la necesidad de compensar los retardos entre diferentes partes del sistema descodificador. En la opción de dos tramas, la función de superposición/adición de TDAC se produce en la mitad anterior de la trama, y el alias puede estar presente solo en la mitad posterior. En la opción de una trama, la ausencia de TDAC implica que puede haber alias en toda la trama; sin embargo, una representación MDST lograda de esta manera, y utilizada como una señal intermedia en la codificación de predicción compleja, todavía puede proporcionar una calidad satisfactoria.
El sistema de descodificación ilustrado en la figura 3 también puede funcionar en dos modos de descodificación de no predicción. Para descodificar una señal estéreo directamente codificada L/R, los segundos conmutadores 305, 310 se colocan en la posición inferior y el primer conjunto de conmutación 302 se establece en el modo de paso. Así, la señal tiene forma L/R aguas arriba de la etapa de suma y diferencia 304, que la convierte en forma M/S, en la que tiene lugar la transformada inversa MDCT y una operación final de suma y diferencia. Para descodificar una señal estéreo provista en forma codificada conjuntamente M/S, el primer conjunto de conmutación 302 se establece en su lugar en su modo de suma y diferencia, de modo que la señal tenga una forma L/R entre el primer conjunto de conmutación 302 y la etapa de suma y diferencia 304, que a menudo es más adecuada desde el punto de vista del filtrado TNS que lo sería una forma M/S. El procesamiento aguas arriba la etapa de suma y diferencia 304 es idéntico al del caso de la descodificación directa L/R.
La figura 14 consiste en tres diagramas de bloques generalizados de descodificadores de acuerdo con realizaciones de la invención. A diferencia de otros diagramas de bloques que acompañan a esta aplicación, una línea de conexión en la figura 14 puede simbolizar una señal multicanal. En particular, dicha línea de conexión puede estar dispuesta para transmitir una señal estéreo que comprende canales izquierdo/derecho, medio/lateral, de mezcla descendente/residual, pseudo-izquierdo/pseudo-derecho y otras combinaciones.
La figura 14A muestra un sistema descodificador para descodificar una representación en el dominio en frecuencia (indicado, para los fines de esta figura, como una representación MDCT) de una señal de entrada. El sistema descodificador está adaptado para suministrar como salida una representación en el dominio en el tiempo de una señal estéreo, que se genera sobre la base de la señal de entrada. Para poder descodificar una señal de entrada codificada por codificación estéreo de predicción compleja, el sistema descodificador está provisto de una etapa de mezcla ascendente 1410. Sin embargo, también es capaz de manejar una señal de entrada codificada en otros formatos y posiblemente, que alterne entre varios formatos de codificación a lo largo del tiempo, por ejemplo, una secuencia de tramas de tiempo codificadas por codificación de predicción compleja puede ir seguida de una parte de tiempo codificada por codificación directa izquierdo/derecho. La capacidad del sistema descodificador para manejar diferentes formatos de codificación se logra mediante la provisión de una línea de conexión (paso) dispuesta en paralelo con dicha etapa de mezcla ascendente 1410. Por medio de un conmutador 1411 es posible seleccionar si la salida de la etapa de mezcla ascendente 1410 (posición inferior del conmutador en la figura) o la señal no procesada disponible a través de la línea de conexión (posición superior del conmutador en la figura) se suministrará a los módulos descodificadores dispuestos más adelante aguas abajo. En esta realización, un módulo inverso MDCT 1412 está dispuesto aguas abajo del conmutador, que transforma una representación MDCT de una señal en una representación en el dominio en el tiempo. Como ejemplo, la señal suministrada a la etapa de mezcla ascendente 1410 puede ser una señal estéreo en forma de mezcla descendente/residual. La etapa de mezcla ascendente 1410 está adaptada entonces para derivar una señal lateral y realizar una operación de suma y diferencia para que una señal estéreo izquierdo/derecho (en el dominio MDCT) sea la salida.
La figura 14B muestra un sistema descodificador similar al de la figura 14A. El sistema actual está adaptado para recibir un flujo de bits en su señal de entrada. El flujo de bits se procesa inicialmente mediante un módulo des multiplexor y de des cuantificación combinado 1420, que proporciona, como primera señal de salida, una representación MDCT de una señal estéreo multicanal para un tratamiento adicional, según lo determina la posición de un conmutador 1422 con funcionalidad análoga a la del conmutador 1411 de la figura 14A. Más precisamente, el conmutador 1422 determina si la primera salida del demultiplexor y de la des cuantificación deben procesarse mediante una etapa de mezcla ascendente 1421 y un módulo inverso MDCT 1423 (posición inferior) o solo mediante el módulo inverso MDCT 1423 (posición superior). Asimismo, el módulo combinado des multiplexor y de des cuantificación 1420 generan información de control. En el presente caso, la información de control asociada a la señal estéreo puede incluir datos que indiquen si la posición superior o inferior del conmutador 1422 es adecuada para descodificar la señal o, de manera más abstracta, de acuerdo con qué formato de codificación se tiene que descodificar la señal estéreo. La información de control también puede incluir parámetros para ajustar las propiedades de la etapa de mezcla ascendente 1421, por ejemplo, un valor del coeficiente de predicción complejo utilizado en la codificación de predicción compleja como ya se describió anteriormente.
La figura 14C muestra un sistema descodificador que, además de las entidades análogas a las de la figura 14B, comprenden primero y segundo dispositivo modificadores en el dominio en frecuencia 1431, 1435, respectivamente, dispuestos aguas arriba y aguas abajo de una etapa de mezcla ascendente 1433. Para los fines de esta figura, cada dispositivo de modificación en el dominio en frecuencia se ilustra mediante un filtro TNS. Sin embargo, con el término dispositivo de modificación en el dominio en frecuencia también se podrían entender otros procesos distintos del filtrado TNS susceptibles de ser aplicados antes o después de la etapa de mezcla ascendente. Ejemplos de modificaciones en el dominio en frecuencia incluyen predicción, adición de ruido, ampliación del ancho de banda y procesamiento no lineal. Consideraciones psico acústicas y razones similares, que posiblemente incluyan las propiedades de la señal a procesar y/o la configuración o ajustes de dicho dispositivo de modificación en el dominio en frecuencia, a veces indican que es ventajoso aplicar dicha modificación en el dominio en frecuencia aguas arriba de la etapa de mezcla ascendente 1433 en lugar de aguas abajo. En otros casos, se puede establecer por consideraciones similares que la posición aguas abajo de la modificación en el dominio en frecuencia es preferible a la de aguas arriba. Por medio de los conmutadores 1432, 1436, los dispositivos modificadores en el dominio en frecuencia 1431, 1435 pueden activarse selectivamente de modo que, en respuesta a la información de control, el sistema descodificador pueda seleccionar la configuración deseada. Como ejemplo, la figura 14C muestra una configuración en la que la señal estéreo del módulo combinado del des multiplexor y del módulo de des cuantificación 1430 se procese inicialmente por el primer dispositivo de modificación en el dominio en frecuencia 1431, se suministre entonces a la etapa de mezcla ascendente 1433 y finalmente se envíe directamente un módulo inverso MDCT 1437, sin pasar por el segundo dispositivo de modificación en el dominio en frecuencia 1435. Como se explica en la sección Resumen, esta configuración se prefiere sobre la opción de realizar el TNS después de la mezcla ascendente en la codificación de predicción compleja.
II. Sistemas codificadores
En la siguiente descripción, realizaciones de un sistema codificador relacionado con la invención, pero no cubierto por la invención reivindicada, serán ahora descritas con referencia a la figura 5, que es un diagrama de bloques generalizado de un sistema codificador para codificar una señal estéreo izquierdo/derecho (L/R) como un flujo de bits de salida por codificación de predicción compleja. El sistema codificador recibe una representación en el dominio en el tiempo o en el dominio en frecuencia de la señal y la suministra a una etapa de mezcla descendente y a un estimador del coeficiente de predicción. Las partes real e imaginaria de los coeficientes de predicción se proporcionan a la etapa de mezcla descendente con el fin de controlar la conversión de los canales izquierdo y derecho en canales de mezcla descendente y residual, que luego se suministran a un multiplexor final MUX. Si la señal no se ha suministrado como una representación en el dominio en frecuencia al codificador, se transforma en dicha representación en la etapa de mezcla descendente o multiplexor.
Uno de los principios en la codificación de predicción es convertir la señal izquierdo/derecho
a la forma medio/lateral, es decir,
ÍM = (L R)/2
{S = ( L - R) /2
y luego hacer uso de la correlación restante entre estos canales, a saber, estableciendo
S = R e{aM] D,
donde a es el coeficiente de predicción complejo a determinar y D es la señal residual. Es posible elegir a para que la energía de la señal residual D = S - Re {aM} se minimice. La minimización de energía se puede realizar con respecto a la potencia instantánea, una energía de más corto o más largo periodo (potencia media), que en el caso de una señal discreta equivale a optimizar en el sentido del valor cuadrático medio.
Las partes real e imaginaria aR, ai del coeficiente de predicción pueden ser cuantificadas y/o codificadas conjuntamente. Preferiblemente, sin embargo, las partes real e imaginaria se cuantifican de forma independiente y uniformemente, por lo general con un tamaño de paso de 0,1 (número adimensional). La resolución de la banda de frecuencia utilizada para el coeficiente de predicción complejo no es necesariamente la misma que la resolución para las bandas de factores de escala (sfb; es decir, un grupo de líneas MDCT que utilizan el mismo tamaño de etapa y rango de cuantificación MDCT) de acuerdo con la norma MPEG. En particular, la resolución de la banda de frecuencia para el coeficiente de predicción puede ser una que esté psico acústicamente justificada, tal como la escala Bark. Obsérvese que la resolución de la banda de frecuencia puede variar en los casos en que la longitud de la transformada varíe.
Como ya se señaló, el sistema codificador (no cubierto por la invención reivindicada) puede tener una latitud para aplicar la predicción de codificación estéreo o no, implicando este último caso una regresión a la codificación L/R o M/S. Dicha decisión se puede tomar basándose en la trama de tiempo o mejor, en una banda de frecuencia dentro de una trama de tiempo. Como se señaló anteriormente, un resultado negativo de la decisión puede comunicarse a la entidad de descodificación de varias maneras, por ejemplo, mediante el valor de un bit indicador especial en cada trama, o por la ausencia (o valor cero) de un valor de coeficiente de predicción. Una decisión positiva puede ser comunicada de manera análoga. Una realización especialmente ventajosa, que permite la regresión sin ninguna sobrecarga, hace uso de un cuarto valor reservado del campo de dos bits ms_mask_present (véase MPEG-2 AAC, documento ISO/IEC 131818-7), que se transmite por trama de tiempo y se define de la siguiente manera:
Figure imgf000017_0001
Al redefinir el valor 11 para que signifique "codificación de predicción compleja", el codificador puede funcionar en todos los modos antiguos, particularmente en la codificación M/S y L/R, sin cualquier penalización de velocidad de bits y aún es capaz de señalizar una codificación de predicción compleja para aquellas tramas en las que sea ventajoso.
Lo sustantivo de la decisión puede basarse en una calidad de velocidad audio a datos racional. Como medida de calidad, se pueden usar los datos obtenidos utilizando un modelo psico acústico incluido en el codificador (como suele ser el caso de los codificadores de audio disponibles basados en MDCT). En particular, algunas realizaciones del codificador proporcionan una selección optimizada de velocidad-distorsión del coeficiente de predicción. De acuerdo con esto, en tales realizaciones, la parte imaginaria - y posiblemente la parte real también - del coeficiente de predicción se fija a cero si el aumento en la ganancia de predicción no economiza suficientes bits para que la codificación de la señal residual justifique el gasto de los bits necesarios para codificar el coeficiente de predicción.
Realizaciones (no cubiertas por la invención reivindicada) del codificador pueden codificar la información relativa al TNS en el flujo de bits. Dicha información puede incluir valores de los parámetros del TNS para ser aplicados por los filtros TNS (síntesis) en el lado del descodificador. Si se van a utilizar conjuntos idénticos de parámetros del TNS para ambos canales, es económico incluir un bit de señalización que indique esta identidad de los conjuntos de parámetros en lugar de transmitir los dos conjuntos de parámetros de forma independiente. La información también puede ser incluida también de si aplicar TNS antes o después de la etapa mezcla ascendente, según corresponda basándose en, por ejemplo, una evaluación psico acústica de las dos opciones disponibles.
Como otra característica opcional, que es potencialmente beneficiosa desde un punto de vista de complejidad y velocidad de bits, el codificador puede adaptarse para usar un ancho de banda limitado individualmente para la codificación de la señal residual. Las bandas de frecuencia por encima de este límite no se transmitirán al descodificador, sino que se pondrán a cero. En ciertos casos, las bandas de frecuencia más altas tienen un contenido de energía tan pequeño que ya están cuantificadas a cero. La práctica normal (configurar el parámetro max_sfb en la norma MPEG) ha implicado el uso de la misma limitación de ancho de banda para las señales de mezcla descendente y residual. Ahora, los inventores han encontrado empíricamente que la señal residual, a un nivel mayor que la señal de mezcla descendente, tiene su contenido de energía localizado en las bandas de frecuencias más bajas. Por lo tanto, al colocar una banda superior especial con límite en la señal residual, es posible una reducción de la velocidad de bits sin una pérdida significativa de la calidad. Por ejemplo, esto se puede lograr mediante la transmisión de dos parámetros max_sfb independientes, uno para la señal de mezcla descendente y otro para la señal residual.
Se señala que si bien las cuestiones de determinación óptima del coeficiente de predicción, su cuantificación y codificación, la regresión al modo M/S o L/R, el filtrado TNS y la limitación del ancho de banda superior, etc., se describieron con referencia al sistema descodificador que se muestra en la figura 5, los mismos hechos son igualmente aplicables a las realizaciones que se describirán a continuación con referencia a las figuras siguientes.
La figura 6 muestra otro sistema codificador (no cubierto por la invención reivindicada), adaptado para realizar codificación estéreo de predicción compleja. El sistema recibe como entrada una representación en el dominio en el tiempo de una señal estéreo segmentada en sucesivas, posiblemente solapadas, tramas de tiempo y que comprenden los canales izquierdo y derecho. Una etapa de suma y diferencia 601 convierte la señal en canales medios y laterales. El canal intermedio se suministra tanto a un módulo MDCT 602 como a un módulo MDST 603, mientras que el canal lateral se suministra solo a un módulo MDCT 604. Un estimador del coeficiente de predicción 605 estima para cada trama de tiempo - y posiblemente para bandas de frecuencia individuales dentro de una trama - un valor del coeficiente de predicción complejo a como se explicó anteriormente. El valor del coeficiente a se suministra ponderado a los sumadores ponderados 606, 607, que forman una señal residual D como una combinación lineal de las representaciones MDCT y MDST de la señal del canal medio y de la representación MDCT de la señal lateral. Preferiblemente, el coeficiente de predicción complejo se suministra a los sumadores ponderados 606, 607 representado por el mismo esquema de cuantificación que se utilizará cuando se codifique en el flujo de bits; esto obviamente proporciona una reconstrucción más fiel, ya que tanto el codificador como el descodificador aplican el mismo valor del coeficiente de predicción. La señal residual, la señal del canal medio (que puede llamarse más apropiadamente señal de mezcla descendente cuando aparece en combinación con una señal residual) y el coeficiente de predicción se suministran a una etapa combinada de cuantificación y multiplexor 608, que codifica estos y la posible información adicional como un flujo de bits de salida.
La figura 7 muestra una variación del sistema codificador de la figura 6. Como se desprende de la similitud de los símbolos en la figura, tiene una estructura similar pero también la funcionalidad adicional de funcionar en un modo de regresión directa de codificación L/R. El sistema codificador actúa entre el modo de predicción compleja y el modo de regresión mediante un conmutador 710 provisto inmediatamente aguas arriba de la etapa combinada de cuantificación y multiplexor 709. En su posición superior, como se muestra en la figura, el conmutador 710 hará que el codificador opere en el modo de regresión. Desde puntos inmediatamente aguas abajo de los módulos MDCT 702, 704, la señal medio/lateral se suministra a una etapa de suma y diferencia 705, que después de convertirla en la forma izquierdo/derecho lo pasa al conmutador 710, que lo conecta a la etapa de cuantificación combinada y multiplexión 709.
La figura 8 muestra un sistema codificador (no cubierto por la invención reivindicada). En contraste con los sistemas codificadores de las figuras 6 y 7, esta realización deriva los datos MDST necesarios para la codificación de predicción compleja directamente a partir de los datos MDCT, es decir, mediante una transformada real a imaginaria en el dominio en frecuencia. La transformada real a imaginaria aplica cualquiera de los enfoques descritos en relación con los sistemas de descodificación de las figuras 2 y 4. Es importante que coincida el método de cálculo del descodificador con el del codificador, de modo que se pueda lograr una descodificación fiel; preferiblemente, utilizándose métodos idénticos de transformada real a imaginaria en el lado del codificador y en el lado del descodificador. En cuanto a las realizaciones del descodificador, la parte A rodeada por una línea discontinua y que comprende la transformada real a imaginaria 804 se puede reemplazar por variantes aproximadas o utilizando menos tramas de tiempo de entrada como entrada. Del mismo modo, la codificación se puede simplificar utilizando cualquiera de los otros enfoques de aproximación descritos anteriormente.
En un nivel superior, el sistema codificador de la figura 8 tiene una estructura diferente de la que probablemente seguiría por una acción directa de reemplazo del módulo MDST en la figura 7 por un módulo real - imaginario (adecuadamente conectado). La arquitectura actual es limpia y logra la funcionalidad de conmutación entre la codificación de predicción y la codificación directa de L/R de una manera firme y de manera computacionalmente económica. La señal de entrada estéreo se lleva a los módulos de la transformada MDCT 801, que generan una representación en el dominio en frecuencia de cada canal. Esto se lleva tanto a un conmutador final 808 para accionar el sistema codificador entre sus modos de predicción y codificación directa y hasta una etapa de suma y diferencia 802. En la codificación directa L/R o codificación conjunta M/S -que se lleva a cabo en la trama de tiempo para la cual el coeficiente de predicción a se fija a cero- esta realización somete la señal de entrada solo a la transformada MDCT, cuantificación y multiplexión, efectuándose las dos últimas etapas mediante una etapa combinada de multiplexión y cuantificación 807 dispuesta en el extremo de salida del sistema, donde se suministra un flujo de bits. En la codificación de predicción, cada uno de los canales se somete a un procesamiento adicional entre la etapa de suma y diferencia 802 y el conmutador 808. De la representación MDCT de la señal del canal medio, la transformada real a imaginaria 804 deriva los datos MDST y los envía tanto a un estimador del coeficiente de predicción 803 como a un sumador ponderado 806. Al igual que en los sistemas codificadores que se muestran en las figuras 6 y 7, un sumador ponderado adicional 805 se usa para combinar la señal lateral con las representaciones ponderadas MDCT y MDST de la señal del canal medio para formar una señal de canal residual, que se codifica junto con la señal del canal medio (es decir, mezcla descendente) y el coeficiente de predicción mediante la cuantificación combinada y el módulo multiplexor 807.
Volviendo ahora a la figura 9, se ilustrará que cada uno de las realizaciones (no cubiertas por la invención reivindicada) del sistema codificador se puede combinar con uno o más filtros TNS (análisis). De acuerdo con las descripciones anteriores, a menudo es ventajoso aplicar el filtro TNS a la señal en su forma de mezcla descendente. Por lo tanto, como se muestra en la figura 9, la adaptación del sistema codificador de la figura 7 para incluir el TNS se efectúa agregando filtros TNS 911 inmediatamente aguas arriba del módulo de multiplexión y cuantificación combinada 909.
En lugar del filtro TNS derecho/residual 911 b, dos filtros TNS separados (no mostrados) pueden proporcionarse inmediatamente aguas arriba de la parte del conmutador 910 adaptado para manejar el canal derecho o residual. Por lo tanto, cada uno de los dos filtros TNS se suministrará con los datos de señal del canal respectivo en todo momento, permitiendo el filtrado TNS basado en más tramas de tiempo que solo la actual. Como ya se ha señalado, los filtros TNS son solo un ejemplo de los dispositivos modificadores en el dominio en frecuencia, en particular los dispositivos que basan su procesamiento en más tramas que la actual, lo que puede beneficiarse de tal posición tanto o más que en el filtro TNS.
Como otra alternativa posible a la realización mostrada en la figura 9, los filtros TNS para la activación selectiva se pueden organizar en más de un punto para cada canal Esto es similar a la estructura del sistema descodificador que se muestra en la figura 4, donde se pueden conectar diferentes conjuntos de filtros TNS por medio de conmutadores. Esto permite la selección de la etapa disponible más adecuada para el filtrado TNS para cada trama de tiempo. En particular, puede ser ventajoso cambiar entre diferentes posiciones el TNS en relación con la conmutación entre la codificación estéreo de predicción compleja y otros modos de codificación.
La figura 11 muestra una variación basada en el sistema codificador de la figura 8, en el que una segunda representación en el dominio en frecuencia de la señal de mezcla descendente se deriva por medio de una transformada real a imaginaria 1105. De manera similar al sistema descodificador mostrado en la figura 4, este sistema codificador también incluye módulos modificadores activables selectivamente en el dominio en frecuencia, uno 1102 provisto aguas arriba de la etapa de mezcla descendente y otro 1109 provisto aguas abajo de la misma.
Los módulos en el dominio en frecuencia 1102, 1109, que en esta figura han sido ejemplificados por filtros TNS, se pueden conectar a cada una de las rutas de señal utilizando los cuatro conmutadores 1103a, 1103b, 1109a y 1109b. III. Realizaciones que no se refieren a aparato
Algunos aspectos adicionales se muestran en las figuras 15 y 16. La figura 15 muestra un método para descodificar un flujo de bits en una señal estéreo, que comprende las siguientes etapas:
1. Se introduce un flujo de bits.
2. El flujo de bits se des cuantifica, por lo que se obtiene una primera representación en el dominio en frecuencia de los canales de mezcla descendente y residual de una señal estéreo.
3. Se calcula una segunda representación en el dominio en frecuencia del canal de la mezcla descendente.
4. Se calcula una señal del canal lateral basándose en las tres representaciones en el dominio en frecuencia de los canales.
5. Una señal estéreo, preferiblemente en forma izquierdo/ derecho, se calcula basándose en los canales lateral y de mezcla descendente
6. Se envía la señal estéreo así obtenida.
Las etapas 3 a 5 se pueden considerar como un proceso de mezcla ascendente. Cada una de las etapas 1 a 6 es análogo a la funcionalidad correspondiente en cualquiera de los sistemas codificadores descritos en las partes anteriores de este texto, y más adelante los detalles relacionados con su realización se pueden recuperar en las mismas partes.
La figura 16 muestra un método para codificar una señal estéreo (no cubierto por la invención) como una señal de flujo de bits, que comprende las siguientes etapas:
1. Se recibe una señal estéreo.
2. La señal estéreo se transforma en una primera representación en el dominio en frecuencia.
3. Se determina un coeficiente de predicción complejo.
4. La representación en el dominio en frecuencia se mezcla descendentemente.
5. Los canales de mezcla descendente y residual se codifican como un flujo de bits junto con el coeficiente de predicción complejo.
6. Se envía el flujo de bits.
Cada una de las etapas 1 a 5 es análoga a la funcionalidad correspondiente en cualquiera de los sistemas codificadores descritos en las partes anteriores de este texto y más detalles relacionados con su realización se pueden recuperar en las mismas partes.
Ambos métodos pueden expresarse como instrucciones interpretables por ordenador en la forma de programas de software y ejecutados por un ordenador. El alcance de la protección de esta invención se extiende a dicho software y a los productos de programa para la distribución de dicho software.
IV. Evaluación empírica
Varias de las realizaciones aquí descritas han sido evaluadas empíricamente. Las partes más importantes del material experimental obtenido en este proceso se resumirán en esta subsección.
La realización utilizada para los experimentos tuvo las siguientes características:
(i) Cada espectro MDST (para una trama de tiempo) se calculó mediante un filtrado de respuesta de impulso finito bidimensional a partir del espectro MDCT actual, anterior y siguiente.
(ii) Se utilizó un modelo psico acústico del codificador estéreo USAC.
(iii) Las partes real e imaginaria del coeficiente de predicción complejo a se transmitieron en lugar de los parámetros PS ICC, CLD e IPD. Las partes real e imaginaria se manejaron de forma independiente, se limitaron al rango [-3,0, 3,0] y se cuantificaron utilizando un tamaño de escalón de 0,1. Luego se codificaron diferencialmente en el tiempo y finalmente se codificaron en Huffman utilizando el libro de códigos de factor de escala USAC. Los coeficientes de predicción fueron actualizados cada segunda banda de factor de escala, lo que dio lugar a una resolución en frecuencia similar a la de MPEG Surround (véase, por ejemplo, ISO/IEC 23003-1). Este esquema de cuantificación y codificación dio como resultado una velocidad de bits media de aproximadamente 2 kb/s para esta información lateral estéreo en una configuración típica con una velocidad de bits objetivo de 96 kb/s.
(iv) El formato del flujo de bits se modificó sin romper el flujo de bits USAC actual, ya que el elemento de flujo de bits presente de 2 bits ms_mask_present tiene actualmente solo tres valores posibles. Al utilizar el cuarto valor para indicar una predicción compleja, se permite un modo de regresión de la codificación básica medio/lateral sin malgastar ningún bit (para más detalles sobre este tema, consúltese la subsección previa de esta descripción).
Las pruebas de audición se realizaron de acuerdo con la metodología MUSHRA, lo que implica en particular la reproducción a través de auriculares y el uso de 8 elementos de prueba con una velocidad de muestreo de 48 kHz. Tres, cinco o seis individuos de prueba participaron en cada prueba.
El impacto de las diferentes aproximaciones MDST fue evaluado para ilustrar la relación práctica de complejidad a calidad que existe entre estas opciones. Los resultados se encuentran en las figuras 12 y 13, mostrando las primeras puntuaciones absolutas obtenidas y las últimas puntuaciones diferenciales en relación con 96s USAC cplf, es decir, codificación estéreo unificada en el dominio MDCT por predicción compleja usando una trama MDCT actual para calcular una aproximación de la MDST. Se puede ver que la ganancia de calidad lograda por la codificación estéreo unificada basada en MDCT aumenta cuando se aplican más enfoques computacionalmente complejos para calcular el espectro MDST. Considerando el promedio de todas las pruebas, el sistema 96s USAC cp lf basado en una sola trama proporciona un incremento significativo en la eficiencia de codificación sobre la codificación estéreo convencional. A su vez, incluso se obtienen resultados significativamente mejores para 96s USAC cp3f, a saber, codificación estéreo unificada en el domino-MDCT mediante codificación compleja usando las tramas MDCT actuales, anteriores y siguientes para calcular la MDST.
V. Observaciones finales
Otras realizaciones de la presente invención serán evidentes para un experto en la materia después de leer la descripción anterior. Aunque la presente descripción y los dibujos describen realizaciones y ejemplos, la invención no está restringida a estos ejemplos específicos. Pueden realizarse numerosas modificaciones y variaciones sin apartarse del alcance de la presente invención, que se define en las reivindicaciones adjuntas.
Se observa que los métodos y aparatos descritos en esta solicitud pueden aplicarse, después de las modificaciones apropiadas dentro de las capacidades del experto en la materia, incluida la experimentación rutinaria, a la codificación de señales que tengan más de dos canales. Se enfatiza particularmente que cualesquiera señales, parámetros y matrices mencionadas en relación con las realizaciones descritas pueden ser variantes en frecuencia o invariantes en frecuencia y/o variantes en el tiempo o invariantes en el tiempo.
Las etapas de computación descritas pueden llevarse a cabo en modo frecuencia o para todas las bandas de frecuencia a la vez, y todas las entidades pueden realizarse para tener una acción selectiva en frecuencia. Para los fines de la aplicación, cualquier esquema de cuantificación puede adaptarse según los modelos psico acústicos. Además, se observa que las diversas conversiones de suma y diferencia, es decir, la conversión de la forma de mezcla descendente/residual a la forma pseudo-L/R, así como la conversión L/R a M/S y la conversión M/S a L/R son todas de la forma
Figure imgf000021_0001
donde, simplemente, el factor de ganancia g puede variar. Por lo tanto, al ajustar los factores de ganancia individualmente, es posible compensar una cierta ganancia de codificación mediante una elección apropiada de la ganancia de descodificación. Además, como puede observar el experto, un número par de transformadas de suma y diferencia dispuestas en serie tienen el efecto de una etapa de paso, posiblemente con ganancia de no unidad.
Los sistemas y métodos descritos en este documento anteriormente pueden realizarse en software, firmware, hardware o una combinación de los mismos. Ciertos componentes o todos los componentes pueden realizarse como software ejecutado por un procesador digital de señal o microprocesador, o realizarse como hardware o como un circuito integrado de aplicación específica. Tal software puede ser distribuido en medios interpretables por ordenador, que pueden comprender medios de almacenamiento en ordenador y medios de comunicación. Como es bien conocido por los expertos en la técnica, los medios de almacenamiento en ordenador incluyen medios volátiles y no volátiles, extraíbles y no extraíbles realizados en cualquier método o tecnología para el almacenamiento de la información, como instrucciones interpretables por ordenador, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento en ordenador incluyen, pero no se limitan a, RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento en disco óptico, casetes magnéticos, cinta magnética, almacenamiento en disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que se pueda utilizar para almacenar la información deseada y que se puede acceder por un ordenador. Además, el experto en la materia sabe que los medios de comunicación normalmente incorporan instrucciones interpretables por ordenador, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada, como una onda portadora u otro mecanismo de transporte, e incluye cualquier medio de entrega de información.

Claims (9)

REIVINDICACIONES
1. Un sistema descodificador para proporcionar una señal estéreo por codificación estéreo de predicción compleja, que comprende:
una etapa de mezcla ascendente (406, 407, 408, 409; 1433) adaptada para generar la señal estéreo basada en las primeras representaciones en el dominio en frecuencia de una señal de mezcla descendente (M) y una señal residual (D), comprendiendo cada una de las primeras representaciones en el dominio en frecuencia primeros componentes espectrales que representan el contenido espectral de la señal correspondiente expresada en un primer subespacio de un espacio multidimensional, estando caracterizado el sistema descodificador por la etapa de mezcla ascendente que comprende:
un módulo (408) para calcular una segunda representación en el dominio en frecuencia de la señal de mezcla descendente basada en su primera representación en el dominio de la frecuencia, comprendiendo la segunda representación en el dominio en frecuencia los segundos componentes espectrales que representan el contenido espectral de la señal expresada en un segundo subespacio del espacio multidimensional que incluye una parte del espacio multidimensional no incluido en el primer subespacio; un sumador ponderado (406, 407) para calcular una señal lateral (S) combinando la primera representación en el dominio en frecuencia de la señal residual, la primera representación en el dominio en frecuencia de la señal de mezcla descendente ponderada por una parte de valor real de un coeficiente de predicción complejo y la segunda representación en el dominio en frecuencia de la señal de mezcla descendente ponderada por una parte valorada imaginaria del coeficiente de predicción complejo; y
una etapa de suma y diferencia (409) para calcular la señal estéreo basándose en la primera representación en el dominio en frecuencia de la señal de mezcla descendente y en la señal lateral; una primera etapa modificadora en el dominio en frecuencia (403; 1431), dispuesta aguas arriba de la etapa de mezcla ascendente y que funciona en modo activo, en la que procesa una representación en el dominio en frecuencia de al menos una señal, y un modo pasivo, en la que actúa como paso; y
una segunda etapa modificadora en el dominio en frecuencia (410; 1435), dispuesta aguas abajo de la etapa de mezcla ascendente y que funciona en un modo activo, en la que procesa una representación en el dominio en frecuencia de al menos una señal, y un modo pasivo, en el que actúa como paso.
2. El sistema descodificador de la reivindicación 1, en el que al menos una de dichas etapas modificadoras en el dominio en frecuencia es una etapa, TNS, con forma de ruido temporal.
3. El sistema descodificador de la reivindicación 2, adicionalmente adaptado para recibir, para cada trama de tiempo, un campo de datos asociado con esa trama y para hacer funcionar, en respuesta al valor del campo de datos, la primera etapa modificadora en el dominio en frecuencia en su modo activo o en su modo de paso y la segunda etapa modificadora en el dominio en frecuencia en su modo activo o en su modo de paso.
4. El sistema descodificador de una cualquiera de las reivindicaciones precedentes, que comprende, además: una etapa de des cuantificación (401), dispuesta aguas arriba de la etapa de mezcla ascendente, para proporcionar dichas primeras representaciones en el dominio en frecuencia de la señal de mezcla descendente (M) y de la señal residual (D) basadas en una señal de flujo de bits.
5. El sistema descodificador de una cualquiera de las reivindicaciones precedentes, en el que:
los primeros componentes espectrales tienen valores reales expresados en el primer subespacio;
los segundos componentes espectrales tienen valores imaginarios expresados en el segundo subespacio; opcionalmente, los primeros componentes espectrales se pueden representar mediante uno de las siguientes:
una transformada discreta del coseno, DCT, o
una transformada discreta del coseno modificada, MDCT, y
opcionalmente, los segundos componentes espectrales se pueden representar mediante uno de las siguientes:
una transformada discreta del seno, DST, o
una transformada discreta del seno modificada, MDST.
6. El descodificador de la reivindicación 5, en el que:
la señal de mezcla descendente se divide en tramas de tiempo sucesivas, cada una asociada con un valor del coeficiente de predicción complejo; y el módulo para calcular una segunda representación en el dominio en frecuencia de la señal de mezcla descendente está adaptado para desactivarse a sí mismo, en respuesta al valor absoluto de la parte imaginaria del coeficiente de predicción complejo, que sea menor que una tolerancia predeterminada para una trama de tiempo, de modo que no se genere salida para esa trama de tiempo.
7. El sistema descodificador de una cualquiera de las reivindicaciones precedentes, estando representada dicha señal estéreo en el dominio en el tiempo y comprendiendo adicionalmente el sistema descodificador:
un conjunto de conmutación (203) dispuesto entre dicha etapa de des cuantificación y dicha etapa de mezcla ascendente, que funciona como:
a] una etapa de paso, o
b] una etapa de suma y diferencia,
permitiendo así la conmutación entre señales de entrada estéreo codificadas directa y conjuntamente; una etapa de transformada inversa (209) adaptada para calcular una representación en el dominio en el tiempo de la señal estéreo; y
una disposición de selector (208), situado aguas arriba de la etapa de la transformada inversa, adaptada para conectar esto de forma selectiva a:
a] un punto aguas abajo de la etapa de mezcla ascendente, por lo que la señal estéreo obtenida por predicción compleja se suministra a la etapa de la transformada inversa; o
b] un punto aguas abajo del conjunto de conmutación (203) y aguas arriba de la etapa mezcla ascendente, por lo que se obtiene una señal estéreo obtenida por codificación estéreo directa que se suministra a la etapa de la transformada inversa.
8. Un método de descodificación para la mezcla ascendente de una señal estéreo de entrada por codificación estéreo de predicción compleja en una señal estéreo de salida, en la que:
dicha señal estéreo de entrada comprende una primera representación en el dominio en frecuencia de una señal de mezcla descendente (M) y una señal residual (D) y un coeficiente de predicción complejo (a); y cada una de dichas primeras representaciones en el dominio en frecuencia comprende primeros componentes espectrales que representan el contenido espectral de las señales correspondientes expresadas en un primer subespacio de un espacio multidimensional,
estando realizado el método en una etapa de mezcla ascendente y caracterizado por incluir las etapas de: calcular una segunda representación en el dominio en frecuencia de la señal de mezcla descendente basándose en su primera representación en el dominio en frecuencia, comprendiendo la segunda representación en el dominio en frecuencia los segundos componentes espectrales que representan el contenido espectral de la señal expresada en un segundo subespacio del espacio multidimensional que incluye una parte del espacio multidimensional no incluido en el primer subespacio
calcular una señal lateral combinando la primera representación en el dominio en frecuencia de la señal residual, la primera representación en el dominio en frecuencia de la señal de mezcla descendente ponderada por una parte valorada real del coeficiente de predicción complejo y en la segunda representación en el dominio en frecuencia de la señal de mezcla de bajada ponderada por una parte valorada imaginaria del coeficiente de predicción complejo;
y que comprende además la etapa, a realizar antes de la etapa de mezcla ascendente, de aplicar la formación de ruido temporal, TNS, a dicha primera representación en el dominio en frecuencia de la señal de mezcla descendente y/o a dicha primera representación en el dominio en frecuencia de la señal residual; o la etapa, a realizar después de la etapa de mezcla ascendente, de aplicar TNS a al menos un canal de dicha señal estéreo.
9. Un producto de programa de ordenador que comprende un medio interpretable por ordenador que almacena instrucciones que, cuando se ejecutan por un ordenador de propósito general, realizan el método expuesto en la reivindicación 8.
ES20200782T 2010-04-09 2011-04-06 Descodificación estéreo de predicción compleja basada en MDCT Active ES2935911T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US32245810P 2010-04-09 2010-04-09

Publications (1)

Publication Number Publication Date
ES2935911T3 true ES2935911T3 (es) 2023-03-13

Family

ID=43952840

Family Applications (8)

Application Number Title Priority Date Filing Date
ES20200782T Active ES2935911T3 (es) 2010-04-09 2011-04-06 Descodificación estéreo de predicción compleja basada en MDCT
ES11714256T Active ES2712073T3 (es) 2010-04-09 2011-04-06 Codificación estéreo de predicción compleja basada en MDCT
ES11713259T Active ES2709755T3 (es) 2010-04-09 2011-04-06 Descodificación estéreo de predicción compleja basada en TCMD
ES20184885T Active ES2936278T3 (es) 2010-04-09 2011-04-06 Codificación estéreo de predicción compleja basada en MDCT
ES18206651T Active ES2810824T3 (es) 2010-04-09 2011-04-06 Sistema decodificador, método de decodificación y programa informático respectivo
ES19184726T Active ES2935962T3 (es) 2010-04-09 2011-04-06 Codificación estéreo usando un modo de predicción o un modo de no predicción
ES11713754T Active ES2763367T3 (es) 2010-04-09 2011-04-06 Codificación estéreo de predicción compleja basada en MDCT
ES18206652T Active ES2831357T3 (es) 2010-04-09 2011-04-06 Descodificación estéreo de predicción compleja basada en MDCT

Family Applications After (7)

Application Number Title Priority Date Filing Date
ES11714256T Active ES2712073T3 (es) 2010-04-09 2011-04-06 Codificación estéreo de predicción compleja basada en MDCT
ES11713259T Active ES2709755T3 (es) 2010-04-09 2011-04-06 Descodificación estéreo de predicción compleja basada en TCMD
ES20184885T Active ES2936278T3 (es) 2010-04-09 2011-04-06 Codificación estéreo de predicción compleja basada en MDCT
ES18206651T Active ES2810824T3 (es) 2010-04-09 2011-04-06 Sistema decodificador, método de decodificación y programa informático respectivo
ES19184726T Active ES2935962T3 (es) 2010-04-09 2011-04-06 Codificación estéreo usando un modo de predicción o un modo de no predicción
ES11713754T Active ES2763367T3 (es) 2010-04-09 2011-04-06 Codificación estéreo de predicción compleja basada en MDCT
ES18206652T Active ES2831357T3 (es) 2010-04-09 2011-04-06 Descodificación estéreo de predicción compleja basada en MDCT

Country Status (18)

Country Link
US (19) US9159326B2 (es)
EP (12) EP2556502B1 (es)
JP (22) JP5814340B2 (es)
KR (14) KR101944328B1 (es)
CN (6) CN102884570B (es)
AU (3) AU2011237882B2 (es)
BR (6) BR112012025863B1 (es)
CA (15) CA3045686C (es)
DK (2) DK2556502T3 (es)
ES (8) ES2935911T3 (es)
IL (21) IL303558B1 (es)
MX (3) MX2012011528A (es)
MY (2) MY184661A (es)
PL (2) PL2556502T3 (es)
RU (6) RU2683175C2 (es)
SG (4) SG10202101745XA (es)
TR (2) TR201901336T4 (es)
WO (3) WO2011124608A1 (es)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
RU2683175C2 (ru) * 2010-04-09 2019-03-26 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
PL3779979T3 (pl) * 2010-04-13 2024-01-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób dekodowania audio do przetwarzania sygnałów audio stereo z wykorzystaniem zmiennego kierunku predykcji
WO2012150482A1 (en) * 2011-05-04 2012-11-08 Nokia Corporation Encoding of stereophonic signals
US8798180B1 (en) * 2011-11-16 2014-08-05 Marvell International Ltd. Method and apparatus for transmitting time domain signals over a network
JP5949270B2 (ja) * 2012-07-24 2016-07-06 富士通株式会社 オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
RU2628900C2 (ru) 2012-08-10 2017-08-22 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер, декодер, система и способ, использующие концепцию остатка для параметрического кодирования аудиобъектов
IN2015DN04001A (es) * 2012-11-07 2015-10-02 Dolby Int Ab
AU2014211539B2 (en) 2013-01-29 2017-04-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Low-complexity tonality-adaptive audio signal quantization
IN2015MN01952A (es) 2013-02-14 2015-08-28 Dolby Lab Licensing Corp
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
WO2014126688A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
JP6250071B2 (ja) 2013-02-21 2017-12-20 ドルビー・インターナショナル・アーベー パラメトリック・マルチチャネル・エンコードのための方法
KR20230020553A (ko) 2013-04-05 2023-02-10 돌비 인터네셔널 에이비 스테레오 오디오 인코더 및 디코더
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
SG10201710019SA (en) 2013-05-24 2018-01-30 Dolby Int Ab Audio Encoder And Decoder
KR101751228B1 (ko) 2013-05-24 2017-06-27 돌비 인터네셔널 에이비 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩
CN109887516B (zh) 2013-05-24 2023-10-20 杜比国际公司 对音频场景进行解码的方法、音频解码器以及介质
JP6190947B2 (ja) 2013-05-24 2017-08-30 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
WO2014187989A2 (en) 2013-05-24 2014-11-27 Dolby International Ab Reconstruction of audio scenes from a downmix
EP2824661A1 (en) * 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
KR101883789B1 (ko) * 2013-07-18 2018-07-31 니폰 덴신 덴와 가부시끼가이샤 선형 예측 분석 장치, 방법, 프로그램 및 기록 매체
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2830051A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
EP3561809B1 (en) * 2013-09-12 2023-11-22 Dolby International AB Method for decoding and decoder.
KR102329309B1 (ko) 2013-09-12 2021-11-19 돌비 인터네셔널 에이비 Qmf 기반 처리 데이터의 시간 정렬
WO2015049334A1 (de) * 2013-10-02 2015-04-09 Stormingswiss Gmbh Verfahren und vorrichtung zum downmixen eines multikanalsignals und zum upmixen eines downmixsignals
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
JP6250073B2 (ja) * 2014-01-24 2017-12-20 日本電信電話株式会社 線形予測分析装置、方法、プログラム及び記録媒体
EP2916319A1 (en) * 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
EP3117432B1 (en) * 2014-03-14 2019-05-08 Telefonaktiebolaget LM Ericsson (publ) Audio coding method and apparatus
CA3155815A1 (en) * 2014-03-24 2015-10-01 Dolby International Ab METHOD AND DEVICE FOR APPLYING DYNAMIC RANGE COMPRESSION TO A HIGHER ORDER SURROUND SIGNAL
WO2015150384A1 (en) 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects
KR102196190B1 (ko) 2014-04-10 2020-12-30 주식회사 만도 차량용 전자제어 브레이크 장치의 피스톤 펌프 어셈블리
WO2015162979A1 (ja) * 2014-04-24 2015-10-29 日本電信電話株式会社 周波数領域パラメータ列生成方法、符号化方法、復号方法、周波数領域パラメータ列生成装置、符号化装置、復号装置、プログラム及び記録媒体
CN110444217B (zh) 2014-05-01 2022-10-21 日本电信电话株式会社 解码装置、解码方法、记录介质
WO2015197516A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method for determining for the compression of an hoa data frame representation a lowest integer number of bits required for representing non-differential gain values
CN110415712B (zh) * 2014-06-27 2023-12-12 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN105336334B (zh) * 2014-08-15 2021-04-02 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
JP6640849B2 (ja) * 2014-10-31 2020-02-05 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
CN107004417B (zh) * 2014-12-09 2021-05-07 杜比国际公司 Mdct域错误掩盖
EP3067889A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding
TWI758146B (zh) * 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
CA2997334A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget
PL3405949T3 (pl) 2016-01-22 2020-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób szacowania międzykanałowej różnicy czasowej
SG11201806256SA (en) * 2016-01-22 2018-08-30 Fraunhofer Ges Forschung Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision
EP3208800A1 (en) 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
US9959877B2 (en) * 2016-03-18 2018-05-01 Qualcomm Incorporated Multi channel coding
EP3246923A1 (en) 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a multichannel audio signal
US10217467B2 (en) * 2016-06-20 2019-02-26 Qualcomm Incorporated Encoding and decoding of interchannel phase differences between audio signals
RU2628201C1 (ru) * 2016-07-07 2017-08-15 Самсунг Электроникс Ко., Лтд. Способ адаптивного квантования для кодирования изображения радужной оболочки
CA3127805C (en) * 2016-11-08 2023-12-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multichannel signal using a side gain and a residual gain
BR112019009424A2 (pt) 2016-11-08 2019-07-30 Fraunhofer Ges Forschung mixador de redução, método para mixagem de redução de pelo menos dois canais, codificador multicanal, método para codificar um sinal multicanal, sistema e método de processamento de áudio
US10210874B2 (en) * 2017-02-03 2019-02-19 Qualcomm Incorporated Multi channel coding
US10475457B2 (en) * 2017-07-03 2019-11-12 Qualcomm Incorporated Time-domain inter-channel prediction
EP3714491A4 (en) 2017-11-20 2021-06-30 The Government Of The United States Of America As The Secretary of The Navy FLEXIBLE SOLAR CELLS WITH ULTRA-THIN CRYSTALLINE
BR112020012654A2 (pt) 2017-12-19 2020-12-01 Dolby International Ab métodos, aparelhos e sistemas para aprimoramentos de decodificação e codificação de fala e áudio unificados com transpositor de harmônico com base em qmf
KR20200099561A (ko) 2017-12-19 2020-08-24 돌비 인터네셔널 에이비 통합 음성 및 오디오 디코딩 및 인코딩 개선을 위한 방법, 장치 및 시스템
TWI812658B (zh) * 2017-12-19 2023-08-21 瑞典商都比國際公司 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統
TWI834582B (zh) 2018-01-26 2024-03-01 瑞典商都比國際公司 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體
CN110556116B (zh) 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置
CN114420139A (zh) * 2018-05-31 2022-04-29 华为技术有限公司 一种下混信号的计算方法及装置
TWI681384B (zh) * 2018-08-01 2020-01-01 瑞昱半導體股份有限公司 音訊處理方法與音訊等化器
DE102020210917B4 (de) * 2019-08-30 2023-10-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein Verbesserter M/S-Stereo-Codierer und -Decodierer
US20230023321A1 (en) * 2020-01-09 2023-01-26 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, encoding method, and decoding method
JP2023548650A (ja) * 2020-10-09 2023-11-20 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
WO2023113490A1 (ko) * 2021-12-15 2023-06-22 한국전자통신연구원 복소수 데이터를 이용한 오디오 처리 방법 및 그를 수행하는 장치

Family Cites Families (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US165587A (en) 1875-07-13 Improvement in vehicle-wheels
GB8913758D0 (en) 1989-06-15 1989-08-02 British Telecomm Polyphonic coding
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
RU2174714C2 (ru) 1998-05-12 2001-10-10 Научно-технический центр "Вычислительная техника" Способ выделения основного тона
US6539357B1 (en) 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
BRPI0308148A2 (pt) * 2002-04-05 2016-06-21 Koninkl Philips Electronics Nv métodos e aparelhos para codificar n sinais de entrada e para decodificar dados codificados representativos de n sinais, formato de sinal, e, portador de gravação
DE10234130B3 (de) 2002-07-26 2004-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals
JP4506141B2 (ja) 2003-10-03 2010-07-21 日本電気株式会社 携帯無線端末
KR101106026B1 (ko) 2003-10-30 2012-01-17 돌비 인터네셔널 에이비 오디오 신호 인코딩 또는 디코딩
US6980933B2 (en) 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
US20080249765A1 (en) 2004-01-28 2008-10-09 Koninklijke Philips Electronic, N.V. Audio Signal Decoding Using Complex-Valued Data
DE102004007191B3 (de) 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004009955B3 (de) 2004-03-01 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
CN1677490A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
US8843378B2 (en) 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
TWI498882B (zh) 2004-08-25 2015-09-01 Dolby Lab Licensing Corp 音訊解碼器
US8423372B2 (en) * 2004-08-26 2013-04-16 Sisvel International S.A. Processing of encoded signals
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
ES2791001T3 (es) 2004-11-02 2020-10-30 Koninklijke Philips Nv Codificación y decodificación de señales de audio mediante el uso de bancos de filtros de valor complejo
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
MX2007005261A (es) * 2004-11-04 2007-07-09 Koninkl Philips Electronics Nv Codificacion y descodificacion de un conjunto de senales.
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
ATE521143T1 (de) 2005-02-23 2011-09-15 Ericsson Telefon Ab L M Adaptive bitzuweisung für die mehrkanal- audiokodierung
US9626973B2 (en) 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
KR100736607B1 (ko) 2005-03-31 2007-07-09 엘지전자 주식회사 오디오 부호화 방법 및 장치
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
WO2006108543A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
AU2006266579B2 (en) * 2005-06-30 2009-10-22 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal
US7684981B2 (en) 2005-07-15 2010-03-23 Microsoft Corporation Prediction of spectral coefficients in waveform coding and decoding
US7693709B2 (en) 2005-07-15 2010-04-06 Microsoft Corporation Reordering coefficients for waveform coding or decoding
US7761303B2 (en) 2005-08-30 2010-07-20 Lg Electronics Inc. Slot position coding of TTT syntax of spatial audio coding application
WO2007026763A1 (ja) * 2005-08-31 2007-03-08 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
US8259840B2 (en) 2005-10-24 2012-09-04 General Motors Llc Data communication via a voice channel of a wireless communication network using discontinuities
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
BRPI0706488A2 (pt) 2006-02-23 2011-03-29 Lg Electronics Inc método e aparelho para processar sinal de áudio
KR101015037B1 (ko) 2006-03-29 2011-02-16 돌비 스웨덴 에이비 오디오 디코딩
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
KR101435893B1 (ko) 2006-09-22 2014-09-02 삼성전자주식회사 대역폭 확장 기법 및 스테레오 부호화 기법을 이용한오디오 신호의 부호화/복호화 방법 및 장치
EP2054875B1 (en) 2006-10-16 2011-03-23 Dolby Sweden AB Enhanced coding and parameter representation of multichannel downmixed object coding
WO2008056775A1 (fr) * 2006-11-10 2008-05-15 Panasonic Corporation Dispositif de décodage de paramètre, dispositif de codage de paramètre et procédé de décodage de paramètre
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
WO2008063035A1 (en) 2006-11-24 2008-05-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
DE102006055737A1 (de) * 2006-11-25 2008-05-29 Deutsche Telekom Ag Verfahren zur skalierbaren Codierung von Stereo-Signalen
US8553891B2 (en) 2007-02-06 2013-10-08 Koninklijke Philips N.V. Low complexity parametric stereo decoder
KR101312470B1 (ko) 2007-04-26 2013-09-27 돌비 인터네셔널 에이비 출력 신호 합성 장치 및 방법
CN101067931B (zh) 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与系统
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8521540B2 (en) * 2007-08-17 2013-08-27 Qualcomm Incorporated Encoding and/or decoding digital signals using a permutation value
US8385556B1 (en) 2007-08-17 2013-02-26 Dts, Inc. Parametric stereo conversion system and method
CN101802907B (zh) 2007-09-19 2013-11-13 爱立信电话股份有限公司 多信道音频的联合增强
MX2010004138A (es) 2007-10-17 2010-04-30 Ten Forschung Ev Fraunhofer Codificacion de audio usando conversion de estereo a multicanal.
CN101202043B (zh) 2007-12-28 2011-06-15 清华大学 音频信号的编码方法和装置与解码方法和装置
CN101903943A (zh) 2008-01-01 2010-12-01 Lg电子株式会社 用于处理信号的方法和装置
US8103005B2 (en) * 2008-02-04 2012-01-24 Creative Technology Ltd Primary-ambient decomposition of stereo audio signals using a complex similarity index
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
AU2009220321B2 (en) 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal
EP2260487B1 (en) * 2008-03-04 2019-08-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mixing of input data streams and generation of an output data stream therefrom
CN102037507B (zh) * 2008-05-23 2013-02-06 皇家飞利浦电子股份有限公司 参数立体声上混合设备、参数立体声译码器、参数立体声下混合设备、参数立体声编码器
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
ES2654433T3 (es) * 2008-07-11 2018-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de señal de audio, método para codificar una señal de audio y programa informático
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
KR101756834B1 (ko) 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
US8619856B2 (en) * 2008-10-03 2013-12-31 Qualcomm Incorporated Video coding with large macroblocks
KR101649376B1 (ko) * 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
BR122019023924B1 (pt) 2009-03-17 2021-06-01 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
US8392200B2 (en) 2009-04-14 2013-03-05 Qualcomm Incorporated Low complexity spectral band replication (SBR) filterbanks
US8346547B1 (en) * 2009-05-18 2013-01-01 Marvell International Ltd. Encoder quantization architecture for advanced audio coding
ES2441069T3 (es) * 2009-10-08 2014-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
JP5299327B2 (ja) * 2010-03-17 2013-09-25 ソニー株式会社 音声処理装置、音声処理方法、およびプログラム
RU2683175C2 (ru) * 2010-04-09 2019-03-26 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
PL3779979T3 (pl) * 2010-04-13 2024-01-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób dekodowania audio do przetwarzania sygnałów audio stereo z wykorzystaniem zmiennego kierunku predykcji
IN2015DN04001A (es) * 2012-11-07 2015-10-02 Dolby Int Ab
ES2613747T3 (es) * 2013-01-08 2017-05-25 Dolby International Ab Predicción basada en modelo en un banco de filtros críticamente muestreado
CN109887516B (zh) * 2013-05-24 2023-10-20 杜比国际公司 对音频场景进行解码的方法、音频解码器以及介质
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences

Also Published As

Publication number Publication date
CA3045686C (en) 2020-07-14
JP6437990B2 (ja) 2018-12-12
IL280247B (en) 2021-10-31
TR201901375T4 (tr) 2019-02-21
US10347260B2 (en) 2019-07-09
IL264774B (en) 2021-02-28
US20190287541A1 (en) 2019-09-19
CA2793320C (en) 2016-07-12
JP2020181207A (ja) 2020-11-05
CA3105050C (en) 2021-08-31
IL267420B (en) 2020-03-31
JP6062467B2 (ja) 2017-01-18
JP2019008314A (ja) 2019-01-17
KR20130007646A (ko) 2013-01-18
SG10202101745XA (en) 2021-04-29
JP2020064310A (ja) 2020-04-23
KR20170010079A (ko) 2017-01-25
IL267420A (en) 2019-07-31
JP6405008B2 (ja) 2018-10-17
US20200035251A1 (en) 2020-01-30
KR20190085563A (ko) 2019-07-18
EP2556504B1 (en) 2018-12-26
BR112012025878B1 (pt) 2021-01-05
CA2992917A1 (en) 2011-10-13
DK2556502T3 (en) 2019-03-04
EP2556502A1 (en) 2013-02-13
RU2012143501A (ru) 2014-04-20
TR201901336T4 (tr) 2019-02-21
IL280464A (en) 2021-03-01
IL253972B (en) 2019-03-31
BR112012025863A2 (pt) 2017-07-18
EP4376000A2 (en) 2024-05-29
KR20140042928A (ko) 2014-04-07
KR102537360B1 (ko) 2023-05-26
CN104851426A (zh) 2015-08-19
JP2024056001A (ja) 2024-04-19
IL250687B (en) 2018-04-30
CA2921437C (en) 2019-06-04
KR20210008945A (ko) 2021-01-25
EP3799043B1 (en) 2022-11-09
IL286761B (en) 2022-09-01
CA2793317A1 (en) 2011-10-13
US20130028426A1 (en) 2013-01-31
US10360920B2 (en) 2019-07-23
MY184661A (en) 2021-04-14
JP6203799B2 (ja) 2017-09-27
ES2810824T3 (es) 2021-03-09
IL253972A0 (en) 2017-10-31
EP3582217B1 (en) 2022-11-09
CA3040779A1 (en) 2011-10-13
SG10202104412WA (en) 2021-06-29
EP3474278A1 (en) 2019-04-24
RU2698154C1 (ru) 2019-08-22
RU2525431C2 (ru) 2014-08-10
US9111530B2 (en) 2015-08-18
CA2988745A1 (en) 2011-10-13
CN102884570B (zh) 2015-06-17
JP2020064311A (ja) 2020-04-23
US20190122675A1 (en) 2019-04-25
US20220180876A1 (en) 2022-06-09
KR20130018854A (ko) 2013-02-25
CA3125378C (en) 2023-02-07
IL245338A (en) 2017-10-31
KR20180011340A (ko) 2018-01-31
JP6740496B2 (ja) 2020-08-12
ES2935962T3 (es) 2023-03-13
IL286761A (en) 2021-10-31
IL245338A0 (en) 2016-06-30
CN102884570A (zh) 2013-01-16
JP5814341B2 (ja) 2015-11-17
CA2988745C (en) 2021-02-02
JP2023017004A (ja) 2023-02-02
SG184167A1 (en) 2012-10-30
CA3045686A1 (en) 2011-10-13
JP6633706B2 (ja) 2020-01-22
BR112012025863B1 (pt) 2020-11-17
AU2011237877B2 (en) 2014-08-07
IL245444A0 (en) 2016-06-30
JP2020091503A (ja) 2020-06-11
JP5814340B2 (ja) 2015-11-17
JP2016026318A (ja) 2016-02-12
CA2924315C (en) 2018-03-13
IL250687A0 (en) 2017-04-30
MX2012011532A (es) 2012-11-16
EP2556503B1 (en) 2019-11-27
KR101698442B1 (ko) 2017-01-20
KR102168140B1 (ko) 2020-10-20
KR101437896B1 (ko) 2014-09-16
CN102947880A (zh) 2013-02-27
IL275616A (en) 2020-08-31
EP3474278B1 (en) 2020-10-14
JP6961854B2 (ja) 2021-11-05
JP6886069B2 (ja) 2021-06-16
RU2717387C1 (ru) 2020-03-23
US10276174B2 (en) 2019-04-30
IL295039A (en) 2022-09-01
BR112012025878A2 (pt) 2016-06-28
CA3110542C (en) 2023-02-07
US10283127B2 (en) 2019-05-07
KR102207086B1 (ko) 2021-01-25
US10475459B2 (en) 2019-11-12
SG10201502597QA (en) 2015-05-28
CA3097372A1 (en) 2011-10-13
CA2793320A1 (en) 2011-10-13
IL257792B (en) 2019-10-31
US20130266145A1 (en) 2013-10-10
IL272689B (en) 2021-02-28
AU2011237877A1 (en) 2012-10-11
IL303558B1 (en) 2024-04-01
RU2020110142A (ru) 2021-09-14
JP6665260B2 (ja) 2020-03-13
JP2013525830A (ja) 2013-06-20
US20180137866A1 (en) 2018-05-17
CN105023578B (zh) 2018-10-19
US10283126B2 (en) 2019-05-07
CN103119647B (zh) 2015-08-19
US9378745B2 (en) 2016-06-28
RU2554844C2 (ru) 2015-06-27
JP6677846B2 (ja) 2020-04-08
CA2921437A1 (en) 2011-10-13
IL257792A (en) 2018-04-30
JP2019179261A (ja) 2019-10-17
KR20210122897A (ko) 2021-10-12
US20180137867A1 (en) 2018-05-17
US20200395023A1 (en) 2020-12-17
AU2011237869A1 (en) 2012-10-11
WO2011124608A1 (en) 2011-10-13
IL222294A (en) 2017-03-30
US11217259B2 (en) 2022-01-04
EP3474277A1 (en) 2019-04-24
EP2556502B1 (en) 2018-12-26
EP4116969A1 (en) 2023-01-11
US11264038B2 (en) 2022-03-01
BR112012025868B1 (pt) 2021-09-28
IL280247A (en) 2021-03-01
US20190279648A1 (en) 2019-09-12
IL221911A (en) 2016-06-30
KR101698438B1 (ko) 2017-01-20
AU2011237882B2 (en) 2014-07-24
US20170365261A1 (en) 2017-12-21
ES2712073T3 (es) 2019-05-09
IL253522A0 (en) 2017-09-28
US20240144940A1 (en) 2024-05-02
US20130030817A1 (en) 2013-01-31
EP3474277B1 (en) 2020-07-15
IL295039B2 (en) 2023-11-01
CN103119647A (zh) 2013-05-22
CA2793140C (en) 2016-05-31
RU2012147499A (ru) 2014-05-20
BR122019026130B1 (pt) 2021-01-05
KR20150113208A (ko) 2015-10-07
WO2011124616A1 (en) 2011-10-13
US11810582B2 (en) 2023-11-07
BR122019026166B1 (pt) 2021-01-05
US9159326B2 (en) 2015-10-13
KR20190011330A (ko) 2019-02-01
US20190311725A1 (en) 2019-10-10
JP6405010B2 (ja) 2018-10-17
AU2011237869B2 (en) 2014-01-16
CN105023578A (zh) 2015-11-04
CA3125378A1 (en) 2011-10-13
RU2683175C2 (ru) 2019-03-26
JP2019012279A (ja) 2019-01-24
US9761233B2 (en) 2017-09-12
CN104851427B (zh) 2018-07-17
EP3799043A1 (en) 2021-03-31
EP4120247A1 (en) 2023-01-18
ES2936278T3 (es) 2023-03-15
JP2015099403A (ja) 2015-05-28
EP4120246A1 (en) 2023-01-18
PL2556504T3 (pl) 2019-05-31
US20150380001A1 (en) 2015-12-31
BR112012025868A2 (pt) 2017-08-29
WO2011124621A1 (en) 2011-10-13
JP2018022159A (ja) 2018-02-08
JP2019023761A (ja) 2019-02-14
JP6817486B2 (ja) 2021-01-20
DK2556504T3 (en) 2019-02-25
US10734002B2 (en) 2020-08-04
EP3739577A1 (en) 2020-11-18
CA3076786A1 (en) 2011-10-13
CA3185301A1 (en) 2011-10-13
PL2556502T3 (pl) 2019-05-31
ES2831357T3 (es) 2021-06-08
RU2559899C2 (ru) 2015-08-20
KR101944328B1 (ko) 2019-01-31
KR101698439B1 (ko) 2017-01-20
JP2021047463A (ja) 2021-03-25
CN102947880B (zh) 2014-10-08
RU2015121322A (ru) 2018-12-20
JP2022001963A (ja) 2022-01-06
IL295039B1 (en) 2023-07-01
EP4116969B1 (en) 2024-04-17
JP2017062504A (ja) 2017-03-30
EP3739577B1 (en) 2022-11-23
JP2013524281A (ja) 2013-06-17
CA3110542A1 (en) 2011-10-13
JP2018022162A (ja) 2018-02-08
KR20230074851A (ko) 2023-05-31
CA2924315A1 (en) 2011-10-13
EP2556503A1 (en) 2013-02-13
US20180137868A1 (en) 2018-05-17
JP7451659B2 (ja) 2024-03-18
CA3040779C (en) 2020-12-08
KR101586198B1 (ko) 2016-01-18
CA3105050A1 (en) 2011-10-13
KR102011793B1 (ko) 2019-08-19
ES2763367T3 (es) 2020-05-28
CA3097372C (en) 2021-11-30
IL221962A (en) 2016-06-30
JP6633707B2 (ja) 2020-01-22
CA3076786C (en) 2021-04-13
IL264905B (en) 2019-09-26
ES2709755T3 (es) 2019-04-17
US9892736B2 (en) 2018-02-13
US10553226B2 (en) 2020-02-04
CA2992917C (en) 2020-05-26
IL222294A0 (en) 2012-12-31
IL275616B (en) 2021-04-29
JP6833962B2 (ja) 2021-02-24
JP2013525829A (ja) 2013-06-20
IL269537A (en) 2019-11-28
BR122019013299B1 (pt) 2021-01-05
EP2556504A1 (en) 2013-02-13
RU2012144366A (ru) 2014-04-27
EP4116969C0 (en) 2024-04-17
JP6833961B2 (ja) 2021-02-24
KR101823870B1 (ko) 2018-02-01
US20160329057A1 (en) 2016-11-10
EP3799043B8 (en) 2022-12-14
JP7193603B2 (ja) 2022-12-20
US10586545B2 (en) 2020-03-10
MY164393A (en) 2017-12-15
IL272689A (en) 2020-04-30
MX2012011530A (es) 2012-11-16
IL269537B (en) 2020-08-31
US10475460B2 (en) 2019-11-12
KR101437899B1 (ko) 2014-10-30
RU2015121322A3 (es) 2019-01-17
CA2793140A1 (en) 2011-10-13
CA2793317C (en) 2018-01-23
IL253522B (en) 2019-03-31
IL245444A (en) 2017-08-31
CN104851426B (zh) 2018-10-23
KR20140042927A (ko) 2014-04-07
MX2012011528A (es) 2012-11-16
CN104851427A (zh) 2015-08-19
KR20130007647A (ko) 2013-01-18
JP6197011B2 (ja) 2017-09-13
US20200258531A1 (en) 2020-08-13
AU2011237882A1 (en) 2012-10-11
IL303558A (en) 2023-08-01
US20190287539A1 (en) 2019-09-19
IL311483A (en) 2024-05-01
EP3582217A1 (en) 2019-12-18
IL280464B (en) 2021-09-30
KR20190095545A (ko) 2019-08-14
JP2016026317A (ja) 2016-02-12
JP2021119417A (ja) 2021-08-12
JP5813094B2 (ja) 2015-11-17

Similar Documents

Publication Publication Date Title
ES2935911T3 (es) Descodificación estéreo de predicción compleja basada en MDCT
AU2022202192B2 (en) Audio Upmixer Operable in Prediction or Non-Prediction Mode
AU2019240610B2 (en) Audio Upmixer Operable in Prediction or Non-Prediction Mode
BR122020007937B1 (pt) Sistema decodificador para prover um sinal estéreo por codificação estéreo de predição complexa e método de decodificação para realizar uma mistura ascendente de um sinal estéreo de entrada por codificação estéreo de predição complexa para um sinal estéreo de saída