ES2712073T3 - Codificación estéreo de predicción compleja basada en MDCT - Google Patents
Codificación estéreo de predicción compleja basada en MDCT Download PDFInfo
- Publication number
- ES2712073T3 ES2712073T3 ES11714256T ES11714256T ES2712073T3 ES 2712073 T3 ES2712073 T3 ES 2712073T3 ES 11714256 T ES11714256 T ES 11714256T ES 11714256 T ES11714256 T ES 11714256T ES 2712073 T3 ES2712073 T3 ES 2712073T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- representation
- frequency domain
- stereo
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003595 spectral effect Effects 0.000 claims abstract description 48
- 238000002156 mixing Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims description 35
- 230000002441 reversible effect Effects 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 14
- 239000000203 mixture Substances 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 4
- 238000007493 shaping process Methods 0.000 claims description 2
- 238000011144 upstream manufacturing Methods 0.000 abstract description 2
- 230000001174 ascending effect Effects 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 20
- 238000012545 processing Methods 0.000 description 18
- 238000001228 spectrum Methods 0.000 description 17
- 238000013459 approach Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000004048 modification Effects 0.000 description 13
- 238000012986 modification Methods 0.000 description 13
- 230000009466 transformation Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000001914 filtration Methods 0.000 description 10
- 238000013139 quantization Methods 0.000 description 10
- 239000003607 modifier Substances 0.000 description 9
- 230000008901 benefit Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000007792 addition Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000011002 quantification Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000000712 assembly Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01L—MEASURING FORCE, STRESS, TORQUE, WORK, MECHANICAL POWER, MECHANICAL EFFICIENCY, OR FLUID PRESSURE
- G01L19/00—Details of, or accessories for, apparatus for measuring steady or quasi-steady pressure of a fluent medium insofar as such details or accessories are not special to particular types of pressure gauges
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/162—Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Stereo-Broadcasting Methods (AREA)
Abstract
Un sistema decodificador para proporcionar una señal estéreo mediante codificación estéreo de predicción compleja, comprendiendo el sistema decodificador: una etapa (206, 207, 210, 211; 306, 307, 308, 309, 312; 406, 407, 408, 409,;1410; 1421; 1433) de mezcla ascendente adaptada para generar la señal estéreo en base a las primeras representaciones en el dominio del tiempo de una señal (M) de mezcla descendente y una señal (D) residual, comprendiendo cada una de las primeras representaciones en el dominio de la frecuencia unos primeros componentes que representan el contenido espectral de la señal correspondiente expresada en un primer sub espacio de un espacio multi dimensional, comprendiendo la etapa de mezcla ascendente: un módulo (206; 306, 307; 408) para calcular una segunda representación en el dominio de la frecuencia de la señal de mezcla descendente basada en la primera representación en el dominio de la frecuencia de la misma, comprendiendo la segunda representación en el dominio de la frecuencia los segundos componentes espectrales que representan el contenido espectral de la señal expresado en un segundo sub espacio del espacio multidimensional que incluye una parte del espacio multidimensional no incluido en el primer sub espacio; un sumador (210, 211; 308, 309; 406, 407) ponderado para calcular una señal (S) lateral en base a la primera y la segunda representaciones en el dominio de la frecuencia de la señal de mezcla descendente, la primera representación en el dominio de la frecuencia de la señal residual y un coeficiente (α) de predicción complejo codificado en una señal de flujo de bits; y una etapa (207; 312; 409) de suma y diferencia para calcular la señal estéreo en base a la primera representación en el dominio de la frecuencia de la señal de mezcla descendente y de la señal lateral, en donde la etapa de mezcla ascendente se adapta para aplicar límites de ancho de banda independientes para la señal de mezcla descendente y la señal residual; en donde los límites del ancho de banda indican para cada una de entre la señal de mezcla descendente y la señal residual la mayor banda de frecuencias a ser decodificada.
Description
DESCRIPCION
Codificacion estereo de prediccion compleja basada en MDCT
Campo tecnico
La invencion descrita en la presente memoria se relaciona de manera general con la codificacion de audio estereo y mas precisamente con las tecnicas para la codificacion estereo usando la prediccion compleja en el dominio de la frecuencia.
Antecedentes de la invencion
La codificacion conjunta de los canales izquierdo (L) y derecho (R) de una senal estereo permite una codificacion mas eficiente comparada con la codificacion independiente de L y R. Un enfoque comun para la codificacion estereo conjunta es la codificacion central/lateral (M/S). Aqm, una senal central (M) es formada mediante la suma de las senales L y R, por ejemplo, la senal M puede tener la forma
M = (L R)/2
Tambien, una senal lateral (S) esta formada mediante la resta de los dos canales L y R, por ejemplo, la senal S puede tener la forma
En el caso de una codificacion M/S, se codifican las senales M y S en lugar de las senales L y R.
En el estandar (vease el documento estandar ISO/IEC 13818-7) AAC (Codificacion de Audio Avanzado) de MPEG (Grupo de Expertos de Imagenes en Movimiento), la codificacion estereo L/R y la codificacion estereo M/S se pueden elegir de una manera variante en el tiempo y variante en la frecuencia. Por tanto, el codificador estereo puede aplicar la codificacion L/R para algunas bandas de frecuencias de la senal estereo, mientras que la codificacion M/S se usa para codificar otras bandas de frecuencias de la senal estereo (variante en frecuencia). Ademas, el codificador puede conmutar en el tiempo entre la codificacion (variante en el tiempo) L/R y M/S. En la AAC de MPEG, la codificacion estereo se lleva a cabo en el dominio de la frecuencia, mas concretamente en el dominio MDCT (transformada de coseno discreta modificada). Esto permite elegir de manera adaptativa ya sea la codificacion L/R o la M/S de una manera variable en la frecuencia y tambien en el tiempo.
La codificacion estereo parametrica es una tecnica para codificar de manera eficiente una senal de audio estereo como una senal monoaural mas una pequena cantidad de informacion lateral para los parametros estereo. Es parte del estandar de Audio MPEG-4 (vease el documento estandar ISO/IEC 14496-3). La senal monoaural se puede codificar usando cualquier codificador de audio. Los parametros estereo se pueden incrustar en la parte auxiliar del flujo de bits mono, alcanzando asf una compatibilidad hacia delante y hacia atras total. En el decodificador, es la senal monoaural la que se decodifica primero, despues de lo cual se reconstruye la senal estereo con la ayuda de los parametros estereo. Una version decorrelacionada de la senal monodecodificada, que tiene una correlacion de cruces por cero con la senal mono, es generada por medio de un decorrelacionador, por ejemplo, un filtro paso todo apropiado que puede incluir una o mas lmeas de retardo. Esencialmente la senal decorrelacionada tiene la misma distribucion de energfa espectral y temporal que la senal mono. La senal monoaural junto con la senal decorrelacionada se introducen al proceso de mezcla ascendente que esta controlado por los parametros estereo y que reconstruye la senal estereo. Para mas informacion, vea el documento “Codificacion Estereo Parametrica de Baja Complejidad en MPEG-4”, H. Purnhagen, Proc. de la 7a Conferencia Int. sobre Efectos de Audio Digital (dAfx'04), Naples, Italia, 5-8 de Octubre, 2004, paginas 163-168.
Envolvente MPEG (MPS; vease la ISO/IEC 23003-1 y el documento “Envolvente MPEG - el Estandar ISO/MPEG para la Codificacion de Audio de Multi Canal Eficiente y Compatible”, J. Herre et al., Documento 7084 de la Convencion de Ingeniena de Audio, 122° Convencion, 5-8 Mayo, 2007) permite combinar los principios de la codificacion estereo parametrica con la codificacion residual, sustituyendo la senal decorrelacionada con una residual transmitida y mejorando por lo tanto la calidad perceptual. La codificacion residual se puede conseguir mediante una mezcla descendente de una senal multi canal y, de manera opcional, extrayendo las senales espaciales. Durante el proceso de mezcla descendente, se calculan las senales residuales que representan la senal de error y despues de codifican y transmiten. Estas toman el lugar de las senales decorrelacionadas en el decodificador. En un enfoque tnbrido, pueden reemplazar las senales decorrelacionadas en ciertas bandas de frecuencias, preferiblemente en las bandas relativamente bajas.
Segun el sistema actual de Codificacion de Audio y Voz Unificado MPEG (USAC), del cual se muestran dos ejemplos en la figura 1, el decodificador comprende un banco de filtros espejo en cuadratura de valor complejo (QMF) ubicado hacia abajo del decodificador de nucleo. La representacion QMF obtenida como la salida del banco de filtros es compleja - por tanto sobre muestreada por un factor de 2 - y se puede disponer como una senal M de mezcla descendente (o, de manera equivalente, una senal central) y una senal D residual, a la cual se aplica una matriz de mezcla ascendente con entradas complejas. Las senales L y R (en el dominio QMF) se obtienen como:
donde g es un factor de ganancia de valor real y a es un coeficiente de prediccion de valor complejo. Preferiblemente, a se escoge de manera tal que se minimice la energfa de la senal D residual. El factor de ganancia puede ser determinado mediante normalizacion, esto es, para asegurar que la energfa de la senal de suma es igual que la suma de las energfas de las senales izquierda y derecha. Las partes real e imaginaria de cada una de las senales izquierda y derecha son mutuamente redundantes - en principio, cada una de ellas se puede calcular en base a la otra - pero son beneficiosas para permitir la aplicacion posterior de un decodificador de replicacion de la banda espectral (SBR) sin que se produzcan artefactos de solapamiento audibles. El uso de una representacion de senal sobre muestreada puede tambien, por razones similares, ser escogido con el objetivo de evitar artefactos conectados con otro procesamiento de senal adaptativo en el tiempo o la frecuencia (no mostrado), tal como la mezcla ascendente de mono a estereo. El filtrado QMF inverso es el ultimo paso de procesamiento en el decodificador. Se observa que la representacion QMF limitada en banda de la senal permite tecnicas residuales limitadas en banda y tecnicas de “relleno residual”, que se pueden integrar dentro de los decodificadores de este tipo.
La estructura de codificacion anterior es bien adecuada para tasas de bits bajas, normalmente por debajo de 80 kb/s, pero no es optima con respecto a la complejidad computacional para tasas de bits mas altas. Mas precisamente, a tasas de bits mayores, la herramienta SBR normalmente no se utiliza (ya que no mejorana la eficiencia de codificacion). Entonces, en un decodificador sin una etapa SBR, solo la matriz de mezcla ascendente de valor complejo motiva la presencia del banco de filtros QMF, que es computacionalmente demandante e introduce un retardo (con una longitud de trama de 1024 muestras, el banco de filtros de analisis/smtesis QMF introduce un retardo de 961 muestras). Esto indica claramente una necesidad de una estructura de codificacion mas eficiente.
El documento WO2009/141775A1 describe un aparato de mezcla ascendente estereo parametrico que genera una senal izquierda y una senal derecha a partir de una senal de mezcla descendente mono basada en parametros espaciales.
Compendio de la invencion
Es un objetivo de la presente invencion proporcionar un sistema, metodo y programa informatico decodificador que sea computacionalmente eficiente tambien en un rango de tasas de bits alto.
La invencion cumple este objetivo proporcionando un respectivo sistema decodificador, un metodo de decodificacion y un programa informatico como se define en las reivindicaciones independientes. Las reivindicaciones dependientes definen las realizaciones de la invencion.
La invencion se beneficia de las ventajas de la codificacion estereo unificada en el sistema USAC MPEG. Estas ventajas se mantienen tambien con tasas de bits mayores, en las que normalmente no se utiliza la SBR, sin el aumento significativo en la complejidad computacional que acompanana a un enfoque basado en QMF. Esto es posible ya que la transformada MDCT muestreada de manera critica, que es la base del sistema de codificacion de transformada USAC MPEG, se puede usar para la codificacion estereo por prediccion compleja que se proporciona por la invencion, al menos en los casos en los que los anchos de banda de audio codificado de los canales de mezcla descendente son los mismos y el proceso de mezcla ascendente no incluye la decorrelacion. Esto significa que no se requiere mas una transformada QMF adicional. Una implementacion representativa de la codificacion estereo por prediccion compleja en el dominio QMF aumentana realmente el numero de operaciones por unidad de tiempo de manera significativa comparado con la tradicional estereo L/R o M/S. Por tanto, el aparato de codificacion segun la invencion parece ser competitivo a dichas tasas de bits, proporcionando una alta calidad de audio con un moderado gasto computacional.
Como se daran cuenta las personas expertas en la materia, el hecho de que la etapa de mezcla ascendente sea mas operable en un modo de paso permite al decodificador decodificar de manera adaptativa segun la codificacion directa o conjunta convencional, y la codificacion de prediccion compleja, como se determina en el lado del decodificador. Por tanto, en estos casos en los que el decodificador no puede aumentar de manera positiva el nivel de calidad mas alla del convencional de la codificacion estereo L/R directa o la codificacion M/S conjunta, puede garantizar al menos que se mantiene el mismo nivel. Por tanto, un decodificador segun este aspecto de la invencion puede, a partir de un punto de vista funcional, considerarse como un super conjunto en relacion con los antecedentes de la tecnica.
Como una ventaja sobre la senal estereo codificada por prediccion basada en QMF, es posible una perfecta reconstruccion de la senal (aparte de los errores de cuantificacion, que se pueden hacer arbitrariamente pequenos). Por tanto, la invencion proporciona un aparato de codificacion para una codificacion estereo basada en transformada mediante prediccion compleja. Preferiblemente, el aparato segun la invencion no se limita a la codificacion estereo de prediccion compleja, sino que es operable tambien en un regimen de codificacion estereo L/R directo o de
codificacion estereo M/S conjunta segun los antecedentes de la tecnica, de modo que es posible seleccionar el metodo de codificacion mas adecuado para una aplicacion concreta o durante un intervalo de tiempo concreto.
Una representacion sobre muestreada (por ejemplo, compleja) de la senal, que incluye tanto dicho primer como dicho segundo componentes espectrales, se usa como base para la prediccion compleja segun la invencion, y por lo tanto, los modulos para calcular dicha representacion sobre muestreada se disponen en el sistema codificador y en el sistema decodificador segun la invencion. Los componentes espectrales se refieren al primer y segundo sub espacios de un espacio multidimensional, que puede ser el conjunto de funciones dependientes del tiempo en un intervalo de una longitud dada (por ejemplo, una longitud de trama de tiempo predefinida) muestreado a una frecuencia de muestreo finita. Es bien conocido que las funciones en este espacio multi dimensional concreto se pueden aproximar mediante una suma ponderada finita de funciones base.
Como apreciara una persona experta en la tecnica, se equipa un codificador adaptado para cooperar con un decodificador con modulos equivalentes para proporcionar la representacion sobre muestreada sobre la que se basa la codificacion de prediccion, para de este modo permitir una fiel reproduccion de la senal codificada. Dichos modulos equivalentes pueden ser modulos identicos o similares o modulos que tengan caractensticas de transferencia identicas o similares. En concreto, los modulos en el codificador y en el decodificador, respectivamente, pueden ser unidades de procesamiento similares o distintas que ejecutan respectivos programas informaticos que realizan conjuntos equivalentes de operaciones matematicas.
En algunas realizaciones del sistema decodificador o del sistema codificador, los primeros componentes espectrales tienen valores reales expresados en el primer sub espacio, y los segundos componentes espectrales tienen valores imaginaros expresados en el segundo sub espacio. Los primeros y los segundos componentes forman juntos una representacion espectral compleja de la senal. El primer sub espacio puede ser el espacio lineal de un primer conjunto de funciones base, mientras que el segundo sub espacio puede ser el espacio lineal de un conjunto de segundas funciones base, algunas de las cuales son linealmente independientes del primer conjunto de funciones base.
En una realizacion, el modulo para calcular la representacion compleja es una transformada de real a imaginario, esto es, un modulo para calcular las partes imaginarias del espectro de una senal de tiempo discreto en base a una representacion espectral real de la senal. La transformada puede estar basada en relaciones matematicas exactas o aproximadas, tales como formulas de analisis armonico o relaciones heunsticas.
En algunas realizaciones del sistema decodificador o del sistema codificador, las primeras componentes espectrales se obtienen mediante una transformada desde el dominio del tiempo al de la frecuencia, preferiblemente una transformada de Fourier, de una senal discreta en el dominio del tiempo, tal como mediante una transformada de coseno discreta (DCT), una transformada de coseno discreta modificada (MDCT), una transformada de seno discreta (DST), una transformada de seno discreta modificada (MDST), una transformada rapida de Fourier (FFT), un algoritmo de Fourier basado en un factor primo o similar. En los primeros cuatro casos, los segundos componentes espectrales se pueden obtener despues mediante la dSt , la MDST, la DCT y la MDCT, respectivamente. Como es bien sabido, el espacio lineal de cosenos que son periodicos en el intervalo de la unidad forma un sub espacio que no esta enteramente contenido en el espacio lineal de senos periodicos en el mismo intervalo. Preferiblemente, los primeros componentes espectrales son obtenibles mediante la MDCT y los segundos componentes espectrales son obtenibles mediante la MDCT.
En una realizacion, el sistema decodificador incluye al menos un modulo de conformado de ruido temporal (modulo TNS, o filtro TNS), que se adapta por encima de la etapa de mezcla ascendente. Hablando de manera general, el uso del TNS aumenta la calidad de audio percibida para las senales con componentes transitorios, y esto tambien aplica a las realizaciones del sistema decodificador inventivo que presenta el TNS. En la codificacion estereo L/R y M/S convencional, el filtro TNS se puede aplicar como un ultimo paso de procesamiento en el dominio de la frecuencia, directamente antes de la transformada inversa. En el caso de la codificacion estereo de prediccion compleja, sin embargo, es ventajoso a menudo aplicar el filtro TNS en la mezcla descendente y las senales residuales, esto es, antes de la matriz de mezcla ascendente. Dicho de otra manera, se aplica el TNS a las combinaciones lineales de los canales izquierdo y derecho, lo que tiene varias ventajas. En primer lugar, puede resultar en una situacion dada de que el TNS es beneficioso solo para la senal de la mezcla descendente. Entonces, el filtrado TNS se puede suprimir u omitir para la senal residual y, lo que puede implicar un uso mas economico del ancho de banda disponible, los coeficientes del filtro TNS solo necesitan ser transmitidos para la senal de la mezcla descendente. En segundo lugar, el calculo de la representacion sobre muestreada de la senal del enlace descendente (por ejemplo, los datos de la MDST que se derivan de los datos de la MDCT para formar una representacion en el dominio de la frecuencia compleja), que es necesaria en la codificacion de prediccion compleja, puede requerir que la representacion en el dominio del tiempo de la senal de mezcla descendente sea computable. Esto implica a su vez que la senal de mezcla descendente este disponible preferiblemente como una secuencia de tiempo del espectro MDCT obtenida de una manera uniforme. Si el filtro TNS fuera aplicado en el decodificador despues de la matriz de mezcla ascendente, que convierte una representacion de la mezcla descendente/residual en una representacion izquierda/derecha, solo una secuencia del espectro MDCT residual de TNS de la senal de la mezcla descendente estana disponible. Esto hana el calculo eficiente del espectro MDST correspondiente muy desafiante, especialmente si los canales izquierdo y derecho estan usando filtros TNS con diferentes caractensticas.
Se enfatiza que la disponibilidad de una secuencia de tiempo del espectro MDCT no es un criterio absoluto para obtener una representacion MDST ajustada para servir como base para la codificacion de prediccion compleja. Ademas de la evidencia experimental, este hecho se puede explicar mediante el TNS que se aplica de manera general solo a las frecuencias mayores, tales como por encima de unos pocos kilohercios, por lo que la senal residual filtrada por el TNS corresponde aproximadamente a la senal no filtrada residual para las frecuencias menores. Por tanto, la invencion se puede realizar como un decodificador para la codificacion estereo de prediccion compleja, en la que los filtros TNS tienen una colocacion diferente que por encima de la etapa de mezcla ascendente, como se indica mas adelante.
En una realizacion, el sistema decodificador incluye al menos un modulo TNS adicional ubicado por debajo de la etapa de mezcla ascendente. Por medio de una disposicion selectora, ya sea el modulo o modulos TNS por encima de la etapa de mezcla ascendente o el modulo o modulos TNS por debajo de la etapa de mezcla ascendente. Bajo ciertas circunstancias, el calculo de la representacion compleja en el dominio de la frecuencia no requiere que sea computable una representacion en el dominio del tiempo de la senal de mezcla descendente. Ademas, como se expuso anteriormente, el decodificador puede ser operable de manera selectiva en un modo de codificacion directo o conjunto, no aplicando codificacion de prediccion compleja, y entonces puede ser mas adecuado aplicar la ubicacion convencional de los modulos TNS, esto es, como uno de los ultimos pasos de procesamiento en el dominio de la frecuencia.
En una realizacion, el sistema decodificador se adapta para economizar los recursos de procesamiento, y posiblemente la energfa, desactivando el modulo para calcular una segunda representacion en el dominio de la frecuencia de la senal de mezcla descendente cuando la ultima no es necesaria. Se supone que la senal de mezcla descendente se parte en bloques de tiempo sucesivos, cada uno de los cuales se asocia con un valor de coeficiente de prediccion complejo. Este valor puede ser determinado mediante una decision tomada para cada bloque de tiempo mediante un codificador que coopera con el decodificador. Ademas, en esta realizacion, el modulo para calcular una segunda representacion en el dominio de la frecuencia de la senal de mezcla descendente se adapta para desactivarse a si mismo si, durante un bloque de tiempo dado, el valor absoluto de la parte imaginaria del coeficiente de prediccion complejo es cero o es menor que una tolerancia predeterminada. La desactivacion del modulo puede implicar que no se calcule una segunda representacion en el dominio de la frecuencia de la senal de mezcla descendente para este bloque de tiempo. Si la desactivacion no tiene lugar, la segunda representacion en el dominio de la frecuencia (por ejemplo, un conjunto de coeficientes MDST) sena multiplicada por cero o por un numero sustancialmente del mismo orden de magnitud que la epsilon maquina (unidad de redondeo) del decodificador o algun otro valor de umbral adecuado.
En un desarrollo adicional de la realizacion anterior, se consigue la economizacion de recursos de procesamiento en un sub nivel del bloque de tiempo dentro del cual se parte la senal de mezcla descendente. Por ejemplo, dicho sub nivel dentro de un bloque de tiempo pude ser una banda de frecuencias, en donde el codificador determina un valor del coeficiente de prediccion complejo para cada banda de frecuencias dentro de un bloque de tiempo. De manera similar, el modulo para producir una segunda representacion en el dominio de la frecuencia se adapta para eliminar su funcionamiento para una banda de frecuencias en un bloque de tiempo para el que el coeficiente de prediccion complejo es cero o tiene una magnitud menor que una tolerancia.
En una realizacion, los primeros componentes espectrales son coeficientes de transformadas dispuestos en uno o mas bloques de tiempo de los coeficientes de transformada, cada bloque generado mediante la aplicacion de una transformada a un segmento de tiempo de una senal en el dominio del tiempo. Ademas, el modulo para calcular una segunda representacion en el dominio de la frecuencia de la senal de mezcla descendente se adapta para:
• derivar uno o mas primeros componentes intermedios a partir de al menos alguno de los componentes espectrales;
• formar una combinacion de dichos uno o mas primeros componentes espectrales segun al menos una parte de una o mas respuestas al impulso para obtener uno o mas segundos componentes intermedios; y
• derivar dichos uno o mas segundos componentes espectrales a partir de dichos uno o mas segundos componentes intermedios.
Este procedimiento logra el calculo de la segunda representacion en el dominio de la frecuencia de manera directa a partir de la primera representacion en el dominio de la frecuencia, como se describe con mayor detalle en el documento de los EE.UU. 6.980.933 B2, de manera notable en las columnas 8-28 y en concreto en la ecuacion 41 del mismo. Como se daran cuenta las personas expertas, no se realiza el calculo a traves del dominio del tiempo, al contrario de, por ejemplo, la transformada inversa seguida por una transformada diferente.
Para una transformacion ejemplar de la codificacion estereo de prediccion compleja segun la invencion, se ha estimado que la complejidad computacional aumenta solo ligeramente (de manera significativamente menor que el aumento provocado por la codificacion estereo de prediccion compleja en el dominio QMF) comparada con el estereo L/R o M/S tradicional. Una realizacion de este tipo que incluye el calculo exacto de los segundos componentes espectrales introduce un retardo que es normalmente unos pocos por cientos mas largo que el
introducido por una implementacion basada en QMF (suponiendo que la longitud del bloque de tiempo es de 1024 muestras y comparando con el retardo del banco de filtros de analisis/smtesis QMF tubrido, que es de 961 muestras).
De manera adecuada, en al menos alguna de las realizaciones anteriores, las respuestas al impulso se adaptan a la transformada mediante la cual es obtenible la primera representacion en el dominio de la frecuencia, y mas concretamente de acuerdo con la respuesta en frecuencia caractenstica de la misma.
En algunas realizaciones, la primera representacion en el dominio de la frecuencia de la senal de mezcla descendente es obtenida mediante una transformada que se aplica en conexion con una o mas funciones de ventana de analisis (o funciones de corte, por ejemplo, la ventana rectangular, la ventana sinusoidal, la ventana Kaiser-Bessel-derivada, etc), un objetivo de la cual es lograr una segmentacion temporal sin introducir una cantidad perjudicial de ruido o cambiar el espectro de una manera indeseable. Posiblemente, dichas funciones de ventana se solapan de manera parcial. Entonces, preferiblemente, las caractensticas de respuesta en frecuencia de la transformada son dependientes de las caractensticas de dichas una o mas funciones de ventana de analisis.
Aun referente a las realizaciones que realizan el calculo de la segunda representacion en el dominio de la frecuencia dentro del dominio de la frecuencia, es posible disminuir la carga computacional involucrada mediante el uso de una segunda representacion aproximada en el dominio de la frecuencia. Dicha aproximacion se puede lograr no requiriendo la informacion completa sobre la cual basar el calculo. Mediante las ensenanzas del documento de los EE.UU. 6.980.933 B2, por ejemplo, se requieren los primeros datos en el dominio de la frecuencia de tres bloques de tiempo para el calculo exacto de la segunda representacion en el dominio de la frecuencia de la senal de mezcla descendente en un bloque, es decir un bloque contemporaneo con el bloque de salida, un bloque anterior y un bloque posterior. Con el proposito de la codificacion de prediccion compleja segun la presente invencion, se pueden obtener aproximaciones adecuadas omitiendo - o reemplazando por cero - los datos que se obtienen a partir del bloque posterior (por lo cual la operacion de modulo puede resultar causal, esto es, no contribuye al retardo) y/o a partir del bloque anterior, para el calculo de la segunda representacion en el dominio de la frecuencia se basa en los datos de uno o mas bloques de tiempo solo. Se observa que incluso aunque la omision de los datos de entrada implique un reescalado de la segunda representacion en el dominio de la frecuencia - en el sentido de que, por ejemplo, no representa mas la misma energfa - se puede usar ya como una base para la codificacion de prediccion compleja siempre que se calcule de una manera equivalente en tanto los extremos del codificador como del decodificador, como se observo anteriormente. En efecto, un posible reescalado de este tipo sera compensado mediante el cambio correspondiente del valor del coeficiente de prediccion.
Todavfa otro metodo aproximado para calcular el componente espectral que forma parte de la segunda representacion en el dominio de la frecuencia de la senal de mezcla descendente puede incluir la combinacion de al menos dos componentes de la primera representacion en el dominio de la frecuencia. Los ultimos componentes pueden ser adyacentes con respecto al tiempo y/o la frecuencia. Como alternativa, pueden ser combinados mediante un filtrado de respuesta al impulso finita (FIR), con relativamente pocas pulsaciones. Por ejemplo, en un sistema que aplica un tamano de bloque de tiempo de 1024, dichos filtros FIR pueden incluir 2, 3,4 etc pulsaciones. Las descripciones de los metodos de calculo aproximados de esta naturaleza se pueden encontrar, por ejemplo, en el documento de los EE.UU. 2005/0197831 A l. Si se usa una funcion de ventana que da relativamente menores pesos a los alrededores de cada lfmite de bloque de tiempo, por ejemplo, una funcion no rectangular, puede ser conveniente basar los segundos componentes espectrales en un bloque de tiempo solo en las combinaciones de los primeros componentes espectrales en el mismo bloque de tiempo, lo que implica que no esta disponible la misma cantidad de informacion para los componentes mas exteriores. El error de aproximacion posiblemente introducido por dicha practica es hasta cierto punto suprimido o cancelado por la forma de la funcion ventana.
En una realizacion de un decodificador, que se disena para emitir una senal estereo en el dominio del tiempo, se incluye una posibilidad de conmutacion entre la codificacion directa o conjunta y la codificacion de prediccion compleja. Esto se logra mediante la provision de:
• un conmutador que se puede operar de manera selectiva ya sea como una etapa de paso (que no modifica las senales) o como una transformada de suma y diferencia;
• una etapa de transformada inversa para realizar una transformada de frecuencia a tiempo; y
• una disposicion selectora para alimentar la etapa de transformada inversa con ya sea una senal codificada de manera directa (o conjunta) o con una senal codificada mediante prediccion compleja.
Como se daran cuenta las personas expertas, dicha flexibilidad en la parte del decodificador da al codificador libertad para elegir entre la codificacion convencional directa o conjunta y la codificacion por prediccion compleja. Por lo tanto, en los casos en los que el nivel de calidad de la codificacion estereo L/R directa o la codificacion estereo M/S conjunta convencionales no se pueda superar, esta realizacion puede garantizar al menos que se mantiene el mismo nivel. Por tanto, el decodificador segun esta realizacion se puede considerar como un super conjunto con respecto a la tecnica relacionada.
Otro grupo de realizaciones del sistema decodificador realizan el calculo de los segundos componentes espectrales en la segunda representacion en el dominio de la frecuencia a traves del dominio del tiempo. Mas precisamente, se aplica la inversa de la transformada mediante la cual se obtuvieron (o son obtenibles) los primeros componentes espectrales y es seguida por una transformada diferente que tiene como salida los segundos componentes espectrales. En concreto, la MDCT inversa puede ser seguida por una MDST. Para reducir el numero de transformadas y de transformadas inversas, la salida de la MDCt inversa puede, en dicha realizacion, ser proporcionada a tanto la MDST como los terminales de salida (posiblemente precedidos por pasos de procesamiento adicionales) del sistema de decodificacion.
Para una implementacion ejemplar de la codificacion estereo de prediccion compleja segun la invencion, se ha estimado que la complejidad computacional aumenta solo ligeramente (aun significativamente menos que el aumento provocado por la codificacion estereo de prediccion compleja en el dominio QMF) comparado con la estereo L/R o M/S convencional.
Como un desarrollo adicional de la realizacion referida en el parrafo anterior, la etapa de mezcla ascendente puede comprender una etapa de transformada inversa adicional para procesar la senal lateral. Entonces, la etapa de suma y diferencia se suministra con una representacion en el dominio del tiempo de la senal lateral, generada por dicha etapa de transformada inversa adicional, y una representacion en el dominio del tiempo de la senal de mezcla descendente, generada por la etapa de transformada inversa ya referida. Se recuerda que, de manera ventajosa a partir del punto de vista de la complejidad computacional, la ultima senal se suministra a tanto la etapa de suma y diferencia como a dicha etapa de transformada diferente referida a la anterior.
En una realizacion, un decodificador disenado para emitir una senal estereo en el dominio del tiempo incluye la posibilidad de conmutar entre la codificacion estereo L/R directa la codificacion estereo M/S conjunta y la codificacion estereo de prediccion compleja. Esto se logra mediante la provision de:
• un conmutador operable ya sea como una etapa de paso o como una etapa de suma y diferencia;
• una etapa de transformada inversa adicional para calcular una representacion en el dominio del tiempo de la senal lateral;
• una disposicion selectora para conectar las etapas de transformada inversa a ya sea una etapa de suma y diferencia adicional conectada a un punto por encima de la etapa de mezcla ascendente y por debajo del conmutador (preferiblemente cuando el conmutador ha sido accionado para funcionar como un filtro de paso, como puede ser el caso en la decodificacion de una senal estereo generada mediante codificacion de prediccion compleja) o una combinacion de una senal de mezcla descendente desde el conmutador y una senal lateral desde el sumador pesado (preferiblemente cuando el conmutador se ha accionado para funcionar como una etapa de suma y diferencia, como puede ser el caso en la decodificacion como una senal estereo codificada directamente).
Como se daran cuanta las personas expertas, esto da al codificador la libertad para elegir entre la codificacion directa o conjunta convencional y la codificacion de prediccion compleja lo que significa que se puede garantizar un nivel de calidad al menos equivalente a la de la codificacion estereo directa o conjunta,
En una realizacion, del sistema codificador segun el segundo aspecto de la invencion se puede comprender un estimador para estimar el coeficiente de prediccion complejo con el objetivo de reducir o minimizar la energfa de senal o la energfa media de senal de la senal residual. La minimizacion puede tener lugar sobre un intervalo de tiempo, preferiblemente un segmento de tiempo o un bloque de tiempo o una trama de tiempo de la senal a ser codificada. El cuadrado de la amplitud se puede tomar como una medida de la energfa momentanea de la senal, y una integral a lo largo del intervalo de tiempo de la amplitud al cuadrado (forma de onda) puede ser tomada como una medida de la energfa de la senal media en ese intervalo. De manera adecuada, el coeficiente de prediccion complejo se determina sobre una base de bloque de tiempo y banda de frecuencias, esto es, su valor se establece de manera tal que reduce la energfa media (esto es, la energfa total) de la senal residual en ese bloque de tiempo y banda de frecuencias. En concreto, los modulos para estimar los parametros de la codificacion estereo parametrica tales como la IID, la ICC y la IPD o similares, pueden proporcionar la salida sobre la que el coeficiente de prediccion complejo puede ser calculado segun las relaciones matematicas conocidas por personas expertas.
En una realizacion, la etapa de codificacion del sistema codificador es operable, ademas, para funcionar como una etapa de paso para permitir una codificacion estereo directa. Seleccionando la codificacion estereo directa en las situaciones en las que se espera que proporcione una mayor calidad, el sistema codificador puede garantizar que la senal estereo codificada tiene al menos la misma calidad que en la codificacion directa. De manera similar, en las situaciones en las que el mayor esfuerzo computacional incurrido por la codificacion de prediccion compleja no esta motivado por un aumento significativo de la calidad, hay por tanto una opcion disponible para economizar los recursos computacionales facilmente para el sistema codificador. La decision entre la codificacion conjunta, directa, de prediccion real y de prediccion compleja en el codificador se basa generalmente en una optimizacion de la tasa/distorsion.
En una realizacion, el sistema codificador puede comprender un modulo para calcular directamente una segunda representacion en el dominio de la frecuencia (esto es, sin aplicar una transformada inversa dentro del dominio del tiempo y sin usar los datos del dominio del tiempo de la senal) en base a los primeros componentes espectrales. En relacion con las realizaciones correspondientes del sistema decodificador descrito anteriormente, este modulo puede tener una estructura analoga, es decir comprender las operaciones de procesamiento analogas pero en un orden diferente, por lo que el codificador se adapta para emitir los datos adecuados como entrada en el lado del decodificador. Con el proposito de ilustrar esta realizacion, se supone que la senal estereo a ser codificada comprende los canales central y lateral, o se ha transformado dentro de esta estructura, y la etapa de codificacion se adapta para recibir una primera representacion en el dominio de la frecuencia. La etapa de codificacion comprende un modulo para calcular una segunda representacion en el dominio de la frecuencia del canal central. (La primera y segunda representaciones en el dominio de la frecuencia referidas aqu son como se define anteriormente; en concreto las primeras representaciones en el dominio de la frecuencia pueden ser representaciones MDCT y la segunda representacion en el dominio de la frecuencia puede ser una representacion MDST). La etapa de codificacion comprende ademas un sumador ponderado para calcular la senal residual como una combinacion lineal formada a partir de la senal lateral y las dos representaciones en el dominio de la frecuencia de la senal central ponderadas mediante las partes real e imaginaria, respectivamente, del coeficiente de prediccion complejo. La senal central, o de manera adecuada la primera representacion en el dominio de la frecuencia de la misma, se puede usar de manera directa como una senal de mezcla descendente. En esta realizacion, ademas, el estimador determina el valor del coeficiente de prediccion complejo con el objetivo de minimizar la energfa o la energfa media de la senal residual. La operacion final (optimizacion) se puede efectuar ya sea mediante control de retroalimentacion, en donde el estimador puede recibir la senal residual obtenida mediante los valores del coeficiente de prediccion actuales a ser ajustador de manera adicional si fuera necesario, o, de una manera de alimentacion hacia adelante, mediante los calculos efectuados directamente o en los canales izquierdo/derecho de una senal estereo original o los canales central/lateral. Se prefiere el metodo de alimentacion hacia adelante, mediante el cual el coeficiente de prediccion complejo se determina de manera directa (concretamente, de una manera no iterativa o no retroalimentada) en base a la primera y a la segunda representaciones en el dominio de la frecuencia de la senal central y la primera representacion en el dominio de la frecuencia de la senal lateral. Se observa que la determinacion del coeficiente de prediccion complejo puede ser seguido por una decision de ya sea aplicar la codificacion directa, conjunta, de prediccion real o de prediccion compleja, en donde se considera la calidad resultante (preferiblemente la calidad perceptual, teniendo en cuenta, por ejemplo, los efectos senal a mascara) de cada opcion disponible; por tanto los enunciados anteriores no se interpretan con el efecto de que exista ningun mecanismo de retroalimentacion en el codificador.
En una realizacion, el sistema codificador comprende los modulos para calcular una segunda representacion en el dominio de la frecuencia de la senal central (o de mezcla descendente) a traves del dominio del tiempo. Se entiende que los detalles de la implementacion en relacion a esta realizacion, al menos hasta lo que al calculo de la segunda representacion en el dominio de la frecuencia se refiere, son similares o se pueden resolver de manera analoga a las correspondientes realizaciones del decodificador. En esta realizacion, la etapa de codificacion comprende:
• una etapa de suma y diferencia para convertir la senal estereo en una forma que comprende los canales central y lateral;
• una etapa de transformada para proporcionar una representacion en el dominio de la frecuencia del canal lateral y una representacion en el dominio de la frecuencia del valor complejo (y por lo tanto sobre muestreado) del canal central; y
• un sumador pesado para calcular una senal residual, en donde el coeficiente de prediccion complejo se usa como un peso.
Aqrn, el estimador puede recibir la senal residual y determinar, posiblemente en un modo de control de la retroalimentacion, el coeficiente de prediccion complejo para reducir o minimizar la energfa o la media de la senal residual. Preferiblemente, sin embargo, el estimador recibe la senal estereo a codificar y determina el coeficiente de prediccion en base a esto. Es ventajoso a partir del punto de vista de la econoirna computacional usar una representacion en el dominio de la frecuencia muestreada de manera cntica del canal lateral, ya que esta ultima no estara sometida a la multiplicacion por un numero complejo en esta realizacion. De manera adecuada, la etapa de transformada puede comprender una etapa MDCT y una etapa MDST en paralelo, teniendo ambas la representacion en el dominio del tiempo del canal central como entrada. Por tanto, se producen una representacion en el dominio de la frecuencia sobre muestreada del canal central y una representacion en el dominio de la frecuencia muestreada de manera cntica del canal lateral.
Se observa que los metodos y aparatos descritos en esta seccion se pueden aplicar, despues de las modificaciones apropiadas dentro de las capacidades de las personas expertas incluyendo la experimentacion de rutina, para la codificacion de senales que tengan mas de dos canales. Las modificaciones en tal operatividad multicanal puede proceder, por ejemplo, a lo largo de las lmeas de las secciones 4 y 5 en el documento de J. Herre et al. citado anteriormente.
Las caractensticas de las dos o mas realizaciones indicadas anteriormente se pueden combinar, a menos que sean claramente complementarias, en realizaciones adicionales. El hecho de que dos caractensticas se reciten en reivindicaciones diferentes no impide que se puedan combinar como una ventaja. Asf mismo, las realizaciones adicionales pueden proporcionar la omision de ciertas caractensticas que no son necesarias o no son esenciales para el proposito deseado. Como un ejemplo, el sistema de decodificacion segun la invencion se puede realizar sin una etapa de descuantificacion en los casos en los que la senal codificada a ser procesada no se cuantifique o este ya disponible en una forma adecuada para el procesamiento por la etapa de mezcla ascendente.
Breve descripcion de los dibujos
La invencion sera ademas ilustrada ahora por las realizaciones descritas en la siguiente seccion, haciendose referencia a los dibujos adjuntos, en los que:
la figura 1 consiste de dos diagramas de bloques generalizados que muestran los decodificadores basados en el QMF segun los antecedentes de la tecnica;
la figura 2 es un diagrama de bloques generalizado de un sistema decodificador estereo basado en la MDCT con prediccion compleja, segun una realizacion de la presente invencion, en la que la representacion compleja de una canal de la senal a ser decodificada se calcula en el dominio de la frecuencia;
la figura 3 es un diagrama de bloques generalizado de un sistema decodificador estereo basado en la MDCT con prediccion compleja, segun una realizacion de la presente invencion, en la que la representacion compleja de una canal de la senal a ser decodificada se calcula en el dominio del tiempo;
la figura 4 muestra una realizacion alternativa del sistema decodificador de la figura 2, en el que la ubicacion de la etapa TNS activa es seleccionable;
la figura 5 comprende diagramas de bloques generalizados que muestran los sistemas codificadores estereo basados en la MDCT con prediccion compleja, segun las realizaciones de otro aspecto de la presente invencion; la figura 6 es un diagrama de bloques generalizado de un codificador estereo basado en la MDCT con prediccion compleja, segun una realizacion de la invencion, en la que se calcula una representacion de un canal de la senal a ser codificada en base a la representacion en el dominio del tiempo del mismo;
la figura 7 muestra una realizacion alternativa del sistema codificador de la figura 6, que es operable tambien en un modo de codificacion L/R directo;
la figura 8 es un diagrama de bloques generalizado de un sistema codificador estereo basado en la MDCT con prediccion compleja, segun una realizacion de la invencion, en la que se calcula una representacion de un canal de la senal a ser codificada en base a una primera representacion en el dominio de la frecuencia del mismo, cuyo sistema decodificador es operable tambien en un modo de codificacion L/R directo;
la figura 9 muestra una realizacion alternativa del sistema codificador de la figura 7, que incluye ademas una etapa TNS dispuesta debajo de la etapa de codificacion;
la figura 10 muestra realizaciones alternativas de la parte etiquetada A en las figuras 2 y 8;
la figura 11 muestra una realizacion alternativa del sistema codificador de la figura 8, que ademas incluye dos dispositivos de modificacion en el dominio de la frecuencia dispuestos respectivamente por debajo y por encima de la etapa de codificacion;
la figura 12 es una representacion grafica de los resultados de la prueba de escucha a 96 kb/s a partir de seis sujetos que muestran diferentes opciones de compensacion de complejidad-calidad para el calculo o la aproximacion del espectro de la MDST, en donde los puntos de datos etiquetados como “+” se refieren a la referencia oculta, “x” se refiere a una sujecion limitada en banda de 3.5 kHz, “*” se refiere al estereo tradicional USAC (M/S o L/R), “□” se refiere a la codificacion estereo unificada en el dominio MDCT mediante la prediccion compleja con la parte imaginaria del coeficiente de prediccion deshabilitada (esto es, prediccion de valor real, que no requiere la MDST), “■” se refiere a la codificacion estereo unificada en el dominio MDCT mediante prediccion compleja usando una trama MDCT actual para calcular una aproximacion de la MDST, “o” se refiere a la codificacion estereo unificada en el dominio MDCT mediante prediccion compleja que usa las tramas MDCT actual y anterior para calcular una aproximacion de la MDST y “• ” se refiere a la codificacion estereo unificada en el dominio MDCT mediante la prediccion compleja que usa las tramas MDCT actual, anterior y siguiente para calcular la MDST; la figura 13 presenta los datos de la figura 12, sin embargo como puntuaciones diferenciales en relacion a la codificacion estereo unificada en el dominio MDCT mediante la prediccion compleja que usa la trama MDCT actual para calcular una aproximacion de la MDST;
la figura 14 comprende los diagramas de bloques generalizados que muestran tres realizaciones de un sistema decodificador segun las realizaciones de la invencion;
la figura 15 es un diagrama de flujo que muestra un metodo de decodificacion segun una realizacion de la invencion; y
la figura 16 es un diagrama de flujo que muestra un metodo de codificacion segun una realizacion de la invencion.
Descripcion detallada de las realizaciones
I. Sistemas decodificadores
La Figura 2 muestra, en forma de un diagrama de bloques generalizado, un sistema de decodificacion para decodificar un flujo de bits que comprende al menos un valor de un coeficiente de prediccion complejo a = aR iai y una representacion de la MDCT de una senal estereo que tiene unos canales M de mezcla descendente y D residual. Las partes real e imaginaria aR, ai del coeficiente de prediccion se pueden cuantificar y/o codificar de manera conjunta. Sin embargo preferiblemente, las partes real e imaginaria se cuantifican de manera independiente y uniforme, normalmente con un tamano de paso de 0,1 (numero sin dimension). La resolucion de la banda de frecuencias usada para el coeficiente de prediccion complejo no es necesariamente la misma que la resolucion para las bandas de los factores de escala (sfb; esto es, un grupo de las lmeas de la MDCT que usan el mismo tamano de paso de cuantificacion y rango de cuantificacion de la MDCT) segun el estandar MPEG. En concreto, la resolucion de la banda de frecuencias para el coeficiente de prediccion puede ser una que este justificada de manera psico acustica, tal como la escala Bark. El demultiplexor 201 se adapta para extraer estas representaciones de la MDCT y el coeficiente de prediccion (parte de la Informacion de Control como se indica en la figura) a partir del flujo de bits que se suministra a este. En efecto, se puede codificar mas informacion de control que simplemente el coeficiente de prediccion complejo en el flujo de bits, por ejemplo, las instrucciones de si el flujo de bits se ha de decodificar en el modo de prediccion o de no prediccion, la informacion TNS, etc. La informacion TNS puede incluir valores de los parametros TNS a ser aplicados por los filtros TNS (de smtesis) del sistema decodificador. Si se han de usar conjuntos identicos de parametros TNS para varios filtros TNS, tal como para ambos canales, es economico recibir esta informacion en la forma de un bit que indica dicha identidad de los conjuntos de parametros en lugar de recibir los dos conjuntos de parametros de manera independiente. Se puede incluir tambien informacion de si aplicar el TNS antes o despues de la etapa de mezcla ascendente, segun sea apropiado en base a, por ejemplo, una evaluacion psico acustica de las dos opciones disponibles. Ademas, entonces la informacion de control puede indicar anchos de banda limitados de manera individual para la mezcla descendente y para las senales residuales. Para cada canal, las bandas de frecuencias por encima de un lfmite de ancho de banda no seran decodificadas pero se estableceran a cero. En ciertos casos, las bandas de frecuencias mas altas tienen un contenido de energfa tan bajo que se cuantifican como cero. La practica normal (cf, el parametro max_sfb en el estandar MPEG) ha sido usar la misma limitacion de ancho de banda para tanto la mezcla descendente como las senales residuales. Sin embargo, la senal residual, en una mayor extension que la senal de mezcla descendente, tiene su contenido de energfa ubicado en las bandas de frecuencias inferiores. Por lo tanto, colocando un lfmite de ancho de banda superior dedicado en la senal residual, es posible una reduccion de la tasa de bits con una perdida de calidad no significativa. Por ejemplo, esto puede ser determinado por dos parametros max_sfb independientes codificados en el flujo de bits, uno para la senal de mezcla descendente y otro para la senal residual.
En esta realizacion, la representacion de la MDCT de la senal estereo se segmenta en sucesivas tramas de tiempo (o bloques de tiempo) que comprenden un numero fijo de puntos de datos (por ejemplo, 1024 puntos), uno de entre varios numeros fijos de puntos de datos (por ejemplo, 128 o 1024 puntos) o un numero variable de puntos. Como es sabido por aquellos expertos en la tecnica, la MDCT se muestrea de manera critica. La salida del sistema de decodificacion, indicada en la parte derecha del dibujo, es una senal estereo en el dominio del tiempo que tiene canales izquierdo L y derecho R. Los modulos 202 de descuantificacion se adaptan para manejar la entrada de flujo de bits al sistema de decodificacion o, donde sea apropiado, dos flujos de bits obtenidos despues de la demultiplexacion de un flujo de bits original y correspondiente a cada uno de entre la mezcla descendente y los canales residuales. Las senales del canal descuantificado se proporcionan a un ensamblaje 203 de conmutacion operable ya sea en un modo de paso o un modo de suma y diferencia correspondiente a las matrices de transformacion respectivas
y
Como se discutira de manera adicional en el siguiente parrafo, el sistema decodificador incluye un segundo ensamblaje 205 de conmutacion. Tanto el ensamblaje 203 como 205 de conmutacion, como muchos otros conmutadores y ensamblajes de conmutacion, son operables de una forma selectiva en frecuencia. Esto permite la decodificacion de una gran variedad de modos de decodificacion, por ejemplo, la decodificacion l/r o M/S dependiente de la frecuencia, como es sabido en la tecnica relacionada. Por tanto, el decodificador segun la invencion se puede considerar un super conjunto en relacion con la tecnica relacionada.
Suponiendo por ahora que el ensamblaje 203 de conmutacion esta en el modo de paso, las senales del canal descuantificado son pasadas, en esta realizacion, a traves de los respectivos filtros 204 TNS. Los filtros 204 TNS no son esenciales en el funcionamiento del sistema de decodificacion y pueden ser reemplazados por elementos de paso. Despues de esto, se suministra la senal al segundo ensamblaje 205 de conmutacion que tiene la misma funcionalidad que el ensamblaje 203 de conmutacion ubicado encima. Con las senales de entrada como se describe anteriormente y con el segundo ensamblaje 205 de conmutacion fijado en su modo de paso, la salida del anterior es el canal de mezcla descendente y la senal del canal residual. La senal de mezcla descendente, aun representada mediante sus espectros MDCT sucesivos en el tiempo, se suministra a una transformada 206 de real a imaginario adaptada para calcular, basada en esto, los espectros MDST de la senal de mezcla descendente. En esta realizacion, una trama MDST se basa en tres tramas MDCT, una trama anterior, una trama actual (o contemporanea) y una trama posterior. Se indica de manera simbolica (Z-1, Z) que el lado de la entrada de la transformada 206 de real a imaginario comprende los componentes de retardo.
La representacion MDST de la senal de mezcla descendente obtenida a partir de la transformada 206 de real a imaginario es ponderada por la parte imaginaria ai del coeficiente de prediccion y se anade a la representacion MDCT de la senal de mezcla descendente ponderada mediante la parte real aR del coeficiente de prediccion y la representacion MDCT de la senal residual. Las dos sumas y multiplicaciones se realizan mediante los multiplicadores y sumadores 210, 211, que forman juntos (de manera funcional) un sumador ponderado, que se suministra con el valor del coeficiente a de prediccion complejo codificado en el flujo de bits recibido inicialmente por el sistema decodificador. El coeficiente de prediccion complejo se puede determinar una vez por cada trama de tiempo. Se puede determinar tambien mas a menudo, tal como una vez por cada trama de tiempo. Se puede determinar tambien mas a menudo, tal como una vez por cada banda de frecuencias dentro de una trama, siendo las bandas de frecuencias una particion motivada de manera psico acustica. Se puede determinar tambien de manera menos frecuente, como se discutio anteriormente en conexion con los sistemas de codificacion segun la invencion. La transformada 206 de real a imaginario se sincroniza con el sumador ponderado de tal manera que una trama MDST actual de la senal del canal de mezcla descendente se combina con unas tramas contemporaneas de la MDCT de cada senal del canal de mezcla descendente y de la senal del canal residual. La suma de estas tres senales es una senal lateral S = Re{aM} D. En esta expresion, M incluye tanto las representaciones MDCT como MDST de la senal de mezcla descendente, es decir M = Mmdct - iMMDST, mientras que D = Dmdct es de valor real. Por tanto, se obtiene una senal estereo que tiene un canal de mezcla descendente y un canal lateral, a partir del cual una transformada 207 de suma y diferencia restaura los canales izquierdo y derecho como sigue:
Estas senales se representan en el dominio MDCT. El ultimo paso del sistema de decodificacion es aplicar una MDCT 209 inversa a cada uno de los canales, mediante lo cual se obtiene una representacion en el dominio del tiempo de la senal estereo izquierda/derecha.
Una posible implementacion de la transformada 206 de real a imaginario se describe ademas en la patente de los EE.UU. 6.980.933 B2 del solicitante, como se observo anteriormente. Mediante la formula 41, la transformada se puede expresar como un filtro de respuesta al impulso finita, por ejemplo, para los puntos pares,
donde S(2v) es el 2v-esimo punto de datos MDST, Xi, Xu, Xiii son los datos MDCT de cada una de las tramas y N es la longitud de la trama. Ademas, hi, iii, hii son respuestas al impulso que dependen de la funcion ventana aplicada, y son por lo tanto determinadas por cada eleccion de la funcion ventana, tal como rectangular, sinusoidal y Kaiser-Bessel-derivada, y para cada longitud de trama. La complejidad de este calculo se puede reducir omitiendo aquellas respuestas al impulso que tienen un relativamente menor contenido de energfa y contribuyen relativamente menos a los datos MDST. Como una alternativa o extension a esta simplificacion, las respuestas al impulso en sf se pueden acortar, por ejemplo, desde la longitud de trama total N a un numero menor de puntos. Como ejemplo, la longitud de la respuesta al impulso se puede disminuir desde 1024 puntos (pulsaciones) a 10 puntos. El truncamiento mas extremo que se puede considerar significativo es
Otros enfoques directos se pueden encontrar en el documento de los EE.UU. 2005/0197831 A1.
Es posible ademas reducir la cantidad de datos de entrada sobre los cuales se basa el calculo. Para ilustrar, la transformada 206 de real a imaginario y sus conexiones por encima, que se indican como la parte denotada por “A” en el dibujo, pueden ser reemplazadas por una variable simplificada, dos de las cuales A' y A'' se muestran en la
figura 10. La variable A' proporciona una representacion imaginana aproximada de la senal. Aqm, el calculo de la MDST solo toma la trama actual y la siguiente en cuenta. Con referencia a la formula anterior a este parrafo, esto puede ser efectuado mediante el establecimiento de Xm(p) = 0 para p = 0, ..., N-1 (el mdice III denota la trama de tiempo siguiente). Ya que la variable A' no requiere el espectro MDCT de la trama siguiente como entrada, el calculo de la MDST no incurre en ningun retardo de tiempo. Claramente, esta aproximacion reduce en cierto modo la precision de la senal MDST obtenida, pero puede implicar tambien que la energfa de esta senal resulta reducida; el ultimo hecho puede ser compensado mediante un aumento de ai como resultado de la naturaleza de la codificacion de prediccion.
Tambien se muestra en la figura 10 la variable A'', que usa como entrada solo los datos MDCT para la trama de tiempo actual. La variable A'' produce probablemente una representacion de la MDST menos precisa que la variable A'. Por otro lado, funciona con retardo cero, como la variable A', y tiene una menor complejidad computacional. Como ya se menciono, las propiedades de la codificacion de forma de onda no se ven afectadas siempre que se use la misma aproximacion en el sistema codificador y en el sistema codificador.
Se ha de observar, independientemente de si se usa la variable A, A' o A'' o cualquier desarrollo adicional de la misma, que solo aquellas partes del espectro MDST para las cuales la parte imaginaria del coeficiente de prediccion complejo no es cero ai t 0 necesitan ser calculadas. En circunstancias practicas esto significara que el valor absoluto |ai| de la parte imaginaria del coeficiente es mayor que un valor de umbral predeterminado, lo que puede estar relacionado con el redondeo unitario del hardware usado. En caso de que la parte imaginaria del coeficiente sea cero para todas las bandas de frecuencias dentro de una trama de tiempo, no hay necesidad de calcular ningun dato MDSt para esa trama. Por tanto, de manera adecuada, la transformada 206 de real a imaginario se adapta para responder a las ocurrencias de valores muy pequenos de |ai| no generando la salida de la MDST, mediante lo cual se pueden economizar los recursos de calculo. En las realizaciones donde se usan mas tramas que la actual para producir una trama de datos MDST, sin embargo, cualquieras unidades por encima de la transformada 206 deberian continuar funcionando de manera adecuada incluso aunque no sea necesario ningun espectro MDST - en concreto, el segundo ensamblaje 205 de conmutacion deberia seguir enviando espectros MDCT - por lo que hay disponibles suficientes datos de entrada para la transformada 206 de real a imaginario ya cuando ocurra la siguiente trama de tiempo asociada con un coeficiente de prediccion distinto de cero; esto puede por supuesto ser el siguiente bloque de tiempo.
Volviendo a la figura 2, la funcion del sistema de decodificacion se ha descrito bajo la suposicion de que ambos ensamblajes 203, 205 de conmutacion se fijan en sus respectivos modos de paso. Como se discutira ahora, el sistema decodificador puede decodificar tambien las senales que no estan codificadas por prediccion. Para este uso, el segundo ensamblaje 205 de conmutacion se fijara en su modo suma y diferencia y de manera adecuada, como se indica en el dibujo, una disposicion 208 selectora se fijara en su posicion inferior, asegurando de este modo que las senales se proporcionen de manera directa a la transformada 209 inversa desde un punto de origen entre los filtros 204 de TNS y el segundo ensamblaje 205 de conmutacion. Para asegurar la correcta decodificacion, la senal adecuada tiene una forma L/R en el punto de origen. Por lo tanto, para asegurar que la transformada de real a imaginario se suministra con la senal central (esto es, la mezcla descendente) correcta en todo momento (en lugar de, de manera intermitente mediante una senal izquierda), el segundo ensamblaje 205 de conmutacion se fija preferiblemente en su modo de suma y diferencia durante la decodificacion de una senal estereo no codificada por prediccion. Como se observa anteriormente, la codificacion de prediccion puede ser reemplazada mediante codificacion directa o conjunta convencional para ciertas tramas en base a, por ejemplo, una decision entre la tasa de datos o la calidad del audio. El resultado de dicha decision se puede comunicar desde el codificador al decodificador de varias maneras, por ejemplo, mediante el valor de un bit indicador dedicado en cada trama, o mediante la ausencia o la presencia de un valor del coeficiente de prediccion. Habiendo establecido estos hechos, el rol del primer ensamblaje 203 de conmutacion se puede conseguir facilmente. De hecho, en el modo de codificacion de no prediccion, el sistema decodificador puede procesar ambas senales segun la codificacion estereo (L/R) directa o la codificacion (M/S) conjunta, y haciendo funcionar el primer ensamblaje 203 de conmutacion ya sea en el modo de paso o de suma y diferencia, es posible asegurar que el punto de origen este siempre provisto con una senal codificada de manera directa. Claramente, el ensamblaje 203 de conmutacion cuando funciona como una etapa de suma y diferencia convierte una senal de entrada en forma M/S en una senal de salida (suministrada a los filtros 204 TNS opcionales) en forma L/R.
El sistema decodificador recibe una senal si una trama de tiempo concreta ha de ser decodificada por el sistema decodificador en el modo de codificacion de prediccion o el modo de codificacion de no prediccion. El modo de no prediccion puede ser senalizado por el valor de un bit indicador dedicado en cada trama o mediante la ausencia (o el valor cero) del coeficiente de prediccion. El modo de prediccion se puede comunicar de manera analoga. Una implementacion particularmente ventajosa, que permite retroceder sin ninguna sobrecarga, hace uso de un cuarto valor reservado del campo de dos bits ms_mascara_presente (vease la AAC MPEG-2, documento ISO/IEC 13818 7), que se transmite por trama de tiempo y se define como sigue:
Redefiniendo el valor 11 para significar “codificacion de prediccion compleja”, el decodificador puede funcionar en todos los modos tradicionales, concretamente con codificacion M/S y L/R, sin ninguna penalizacion y es capaz aun de recibir una senal que indique el modo de codificacion de prediccion compleja para las tramas relevantes.
La figura 4 muestra un sistema decodificador de la misma estructura general como el mostrado en la figura 2 pero incluyendo, sin embargo, al menos dos estructuras diferentes. En primer lugar, el sistema de la figura 4 incluye los conmutadores 404, 411 que permiten la aplicacion de algun paso de procesamiento que involucre la modificacion en el dominio de la frecuencia por encima y por debajo de la etapa de mezcla ascendente. Esto se logra, por un lado, mediante un primer conjunto de modificadores 403 en el dominio de la frecuencia (dibujados con filtros de smtesis TNS en esta figura) proporcionado junto con el primer conmutador 404 por debajo de los modulos 401 de descuantificacion y un primer ensamblaje 402 de conmutacion pero por encima de un segundo ensamblaje 405 de conmutacion dispuesto inmediatamente por encima de la etapa 406, 407, 408, 409 de mezcla ascendente. Por otro lado, el sistema decodificador incluye un segundo conjunto de modificadores 410 en el dominio de la frecuencia proporcionados junto con un segundo conmutador 411 por debajo de la etapa 406, 407, 408, 409 de mezcla ascendente pero por encima de una etapa 412 de transformada inversa. De manera ventajosa, como se indica en el dibujo, cada modificador en el dominio de la frecuencia se dispone en paralelo con una lmea de paso que se conecta por encima del lado de entrada del modificador en el dominio de la frecuencia y se conecta por debajo del conmutador asociado. En virtud de esta estructura, el modificador en el dominio de la frecuencia se suministra con los datos de senal en todo momento, permitiendo el procesamiento en el dominio de la frecuencia en base a mas tramas de tiempo que solo la actual. La decision de si aplicar el primer 403 o el segundo conjunto de modificadores 410 en el dominio del tiempo puede ser tomada por el codificador (y transportada en el flujo de bits), o puede estar basada en si se aplica la codificacion de prediccion, o puede estar basada en algun otro criterio encontrado adecuado en las circunstancias practicas. Como ejemplo, si el modificador en el dominio de la frecuencia son filtros TNS, entonces puede ser ventajoso usar el primer conjunto 403 para algunos tipos de senales, mientras que el segundo conjunto 410 puede ser ventajoso para otro tipos de senales. Si el resultado de esta seleccion se codifica en el flujo de bits, entonces por consiguiente el sistema decodificador activara el conjunto respectivo de filtros TNS.
Para facilitar el entendimiento del sistema decodificador mostrado en la figura 4, se observa de manera explfcita que la decodificacion de una senal codificada de manera directa (L/R) tiene lugar cuando a = 0 (lo que implica que la pseudo-L/R y la L/R son identicas y que los canales lateral y residual no difieren), el primer ensamblaje 402 de conmutacion esta en el modo de paso, el segundo ensamblaje de conmutacion esta en el modo de suma y diferencia, provocando de este modo que la senal tenga la forma M/S entre el segundo ensamblaje 405 de conmutacion y la etapa 409 de suma y diferencia de la etapa de mezcla ascendente. Ya que la etapa de mezcla ascendente efectivamente sera una etapa de paso, es inmaterial si (usando los respectivos conmutadores 404, 411) se activa el primer o el segundo conjunto de modificadores en el dominio de la frecuencia.
La figura 3 ilustra un sistema decodificador segun una realizacion de la invencion que, en relacion con las figuras 2 y 4, representa un enfoque diferente a la provision de los datos MDST requeridos para la mezcla ascendente. Como los sistemas decodificadores ya descritos, el sistema de la figura 3 comprende los modulos 301 de descuantificacion, un primer ensamblaje 302 de conmutacion operable en ya sea un modo de paso o de suma y diferencia y los filtros 303 TNS (de smtesis), que se disponen en serie desde el extremo de la entrada del sistema decodificador. Los modulos por debajo de este punto se utilizan de manera selectiva por medio de dos segundos conmutadores 305, 310, que se hacen funcionar preferiblemente de manera conjunta por lo que ambos estan ya sea en sus posiciones superiores o en sus posiciones inferiores, como se indica en la figura. En el extremo de salida del sistema decodificador, hay una etapa 312 de suma y diferencia e, inmediatamente por encima de esta, dos modulos 306, 311 de MDCT inversa para transformar una representacion en el dominio MDCT de cada canal en una representacion en el dominio del tiempo.
En la decodificacion de prediccion compleja, donde el sistema decodificador se suministra con una codificacion de flujo de bits una senal de mezcla descendente/residual estereo y valores de un coeficiente de prediccion complejo, el primer ensamblaje 302 de conmutacion se fija en su modo de paso y los segundos conmutadores 305, 310 se fijan en su posicion superior. Por debajo de los filtros TNS, los dos canales de la senal estereo (descuantificada, filtrada TNS, MDCT) se procesan de diferentes maneras. El canal de mezcla descendente se proporciona, por otro lado, a un multiplicador y un sumador 308, que suma la representacion MDCT del canal de mezcla descendente ponderada por la parte real aR del coeficiente de prediccion a la representacion MDCT del canal residual, y, por otro lado, a uno 306 de los modulos de transformada MDCT. La representacion en el dominio del tiempo del canal M de mezcla descendente, que es la salida del modulo 306 de transformada MDCT inversa, se suministra tanto a la etapa 312 de
suma y diferencia final como al modulo 307 de transformada MDST. Este doble uso de la representacion en el dominio del tiempo del canal de mezcla descendente es ventajoso desde el punto de vista de la complejidad computacional. La representacion MDST del canal de mezcla descendente asf obtenida se suministra a un multiplicador y sumador 309 adicional, que despues de ponderar mediante la parte imaginaria ai del coeficiente de prediccion anade esta senal a la combinacion lineal emitida desde el sumador 308; por tanto, la salida del sumador 309 es una senal de canal lateral, S = Re{aM} D. De manera similar al sistema decodificador mostrado en la figura 2, los multiplicadores y sumadores 308, 309 pueden ser combinados facilmente para formar un sumador multi senal ponderado con entradas las representaciones MDCT y MDST de la senal de mezcla descendente, la representacion MDCT de la senal residual y el valor del coeficiente de prediccion complejo. Por debajo de este punto en la presente realizacion, solo se mantiene un paso a traves del modulo 311 de transformada MDCT antes de que se suministre la senal del canal lateral a la etapa 312 final de suma y diferencia.
La sincronizacion necesaria en el sistema decodificador se puede lograr aplicando las mismas longitudes de transformadas y formas de ventana a ambos modulos 306, 3 l l de transformada MDCT inversa, como es ya la practica en la codificacion M/S y L/R selectiva en frecuencia. Un retardo de una trama es introducido mediante la combinacion de ciertas realizaciones del modulo 306 MDCT inversa y las realizaciones del modulo 307 MDST. Por lo tanto, se proporcionan cinco bloques 313 de retardo opcionales (o instrucciones de software a este efecto en una implementacion informatica), por lo que la parte del sistema ubicada a la derecha de la lmea discontinua se puede retrasar en una trama en relacion a la parte izquierda cuando sea necesario. Aparentemente todas las intersecciones entre la lmea discontinua y las lmeas de conexion se proporcionan con bloques de retardo, con la excepcion de la lmea de conexion entre el modulo 306 de MDCT inversa y el modulo 307 de transformada MDST, que es donde surge el retardo que requiere compensacion.
El calculo de los datos MDST para una trama de tiempo requiere los datos de una trama de la representacion en el dominio del tiempo. Sin embargo, la transformada MDCT inversa se basa en una (la actual), dos (preferiblemente; la anterior y la actual) o tres (preferiblemente: la anterior, la actual y la posterior) tramas consecutivas. En virtud de la bien conocida cancelacion del efecto de solape en el dominio del tiempo (TDAC) asociado con la MDCT, la opcion de tres tramas consigue un solapamiento completo de las tramas de entrada y por tanto proporciona la mejor (y posiblemente perfecta) precision, al menos en las tramas que contienen el efecto de solape en el dominio del tiempo. Claramente, la MDCT inversa de tres tramas funciona con una trama de retardo. Aceptando usar una aproximacion en el dominio del tiempo aproximada como entrada a la transformada MDST, se puede evitar este retardo y de este modo la necesidad de compensar los retardos entre las diferentes partes del sistema decodificador. En la opcion de dos tramas, se produce el solapamiento/adicion que permite la TDAC en la primera mitad de la trama, y el efecto de solape puede estar presente solo en la ultima mitad. En la opcion de una trama, la ausencia de la TDAC implica que el efecto de solape puede ocurrir en toda la trama; sin embargo, una representacion MDST conseguida de esta manera, y usada como una senal intermedia en la codificacion de prediccion compleja, puede aun proporcionar una calidad satisfactoria.
El sistema de decodificacion ilustrado en la figura 3 se puede hacer funcionar tambien en dos modos de decodificacion de no prediccion. Para decodificar una senal estereo codificada L/R de manera directa, los segundos conmutadores 305, 310 se fijan en la posicion inferior y el primer ensamblaje 302 de conmutacion se fija en el modo de paso. Por tanto, la senal tiene la forma L/R por encima de la etapa 304 de suma y diferencia, que la convierte en le forma M/S, tras lo cual tiene lugar una transformada MDCT inversa y una operacion de suma y diferencia final. Para decodificar una senal estereo proporcionada en la forma codificada M/S de manera conjunta, el primer ensamblaje 302 de conmutacion se fija en cambio en su modo de suma y diferencia, por lo que la senal tiene la forma L/R entre el primer ensamblaje 302 de conmutacion y la etapa 304 de suma y diferencia, que es a menudo mas adecuado desde el punto de vista del filtrado TNS de lo que sena una forma M/S. El procesamiento por debajo de la etapa 304 de suma y diferencia es identico al del caso de la decodificacion L/R directa.
La figura 14 se compone de tres diagramas de bloques generalizados de decodificadores segun las realizaciones de la invencion. Al contrario de los otros diversos diagramas de bloques que acompanan esta solicitud, una lmea de conexion en la figura 14 puede simbolizar una senal multi canal. En concreto, dicha lmea de conexion se puede disponer para transmitir una senal estereo que comprende los canales izquierdo/derecho, central/lateral, de mezcla descendente/residual, pseudo izquierdo/pseudo derecho y otras combinaciones.
La figura 14A muestra un sistema decodificador para decodificar una representacion en el dominio de la frecuencia (indicada, para el proposito de esta figura, como una representacion MDCT) de una senal de entrada. El sistema decodificador se adapta para suministrar como su salida una representacion en el dominio del tiempo de una senal estereo, que se genera en base a la senal de entrada. Para ser capaz de decodificar una senal de entrada codificada mediante codificacion estereo de prediccion compleja, se proporciona el sistema decodificador con una etapa 1410 de mezcla ascendente. Sin embargo, es capaz tambien de manejar una senal de entrada codificada en otros formatos y posiblemente, que alterne entre varios formatos de codificacion en el tiempo, por ejemplo, una secuencia de tramas de tiempo codificadas mediante codificacion de prediccion compleja puede ser seguida por una parte de tiempo codificada mediante codificacion izquierda/derecha directa. La capacidad del sistema decodificador para manejar los diferentes formatos de codificacion es lograda mediante la provision de una lmea de conexion (paso) dispuesta en paralelo con dicha etapa 1410 de mezcla ascendente. Por medio de un conmutador 1411 es posible seleccionar si la salida de la etapa 1410 de mezcla ascendente (posicion de conmutador inferior en la figura)
o la senal no procesada disponible en la lmea de conexion (posicion de conmutador superior en la figura) se ha de suministrar a los modulos decodificadores dispuestos por debajo. En esta realizacion, se dispone un modulo 1412 de MDCT inversa por debajo del conmutador, que transforma la representacion MDCT de una senal en una representacion en el dominio del tiempo. Como ejemplo, la senal suministrada en la etapa 1410 de mezcla ascendente puede ser una senal estereo en forma de mezcla descendente/residual. La etapa 1410 de mezcla ascendente se adapta para derivar una senal lateral y para realizar una operacion de suma y diferencia de modo que se emita una senal estereo izquierda/derecha (en el dominio MDCT).
La figura 14B muestra un sistema decodificador similar al de la figura 14A. El presente sistema se adapta para recibir un flujo de bits como su senal de entrada. El flujo de bits es inicialmente procesado mediante un modulo 1420 demultiplexor y de descuantificacion combinado, que proporciona, como una primera senal de salida, una representacion MDCT de una senal estereo multi canal para un tratamiento adicional, como es determinado por la posicion de un conmutador 1422 que tiene una funcionalidad analoga que el conmutador 1411 de la figura 14A. Mas precisamente, el conmutador 1422 determina si la primera salida desde el demultiplexor y descuantificador ha de ser procesada por una etapa 1421 de mezcla ascendente y un modulo 1423 de MDCT inversa (posicion inferior) o por el modulo 1423 de MDCt inversa solo (posicion superior). El modulo 1420 demultiplexor y de descuantificacion combinado emite la informacion de control tambien. En el caso actual, la informacion de control asociada con la senal estereo puede incluir los datos que indican si es adecuada la posicion superior o inferior del conmutador 1422 para decodificar la senal o, de manera mas abstracta, segun a que formato de codificacion se ha de decodificar la senal estereo. La informacion de control puede incluir parametros para ajustar las propiedades de la etapa 1421 de mezcla ascendente, por ejemplo, un valor del coeficiente de prediccion complejo a usado en la codificacion de prediccion compleja como ya se describio anteriormente.
La figura 14C muestra un sistema decodificador que, ademas de las entidades analogas a aquellas de la figura 14B, comprende un primer y un segundo dispositivos 1431, 1435 de modificacion en el dominio de la frecuencia dispuestos respectivamente por encima y por debajo de la etapa 1433 de mezcla ascendente. Para el proposito de esta figura, cada dispositivo de modificacion en el dominio de la frecuencia es ilustrado por un filtro TNS. Sin embargo, por el termino dispositivo de modificacion en el dominio de la frecuencia se podna entender tambien otros procesos distintos del filtrado TNS que son susceptibles de ser aplicados bien antes o despues de la etapa de mezcla ascendente. Ejemplos de modificaciones en el dominio de la frecuencia incluyen la prediccion, la adicion de ruido, la extension del ancho de banda, y el procesamiento no lineal. Las consideraciones psico acusticas y razones similares, que posiblemente incluyen las propiedades de la senal a ser procesada y/o la configuracion o los ajustes de dicho dispositivo de modificacion en el dominio de la frecuencia, a veces indican que es ventajoso aplicar dicha modificacion en el dominio de la frecuencia por encima de la etapa 1433 de mezcla ascendente en lugar de por debajo. En otros casos, se puede establecer mediante consideraciones similares que es preferible la posicion por debajo de la modificacion en el dominio de la frecuencia a la de por encima. Por medio de los conmutadores 1432, 1436, los dispositivos 1431, 1435 de modificacion en el dominio de la frecuencia se pueden activar de manera selectiva de modo que, en respuesta a la informacion de control, el sistema decodificador puede seleccionar la configuracion deseada. Como ejemplo, la figura 14C muestra una configuracion en la que la senal estereo del modulo 1430 demultiplexador y de descuantificacion combinado es procesado inicialmente mediante un primer dispositivo 1431 de modificacion en el dominio de la frecuencia, es despues suministrado a la etapa 1433 de mezcla ascendente y es finalmente enviado de manera directa a un modulo 1437 de MDCT inversa, sin pasar a traves del segundo dispositivo 1435 de modificacion en el dominio de la frecuencia. Como se explica en la seccion Compendio, esta configuracion se prefiere sobre la opcion de realizar el TNS despues de la mezcla superior en la codificacion de prediccion compleja.
II. Sistemas codificadores
Un sistema codificador segun la invencion se describira ahora con referencia a la figura 5, que es un diagrama de bloques generalizado de un sistema codificador para codificar una senal estereo izquierda/derecha (L/R) como un flujo de bits de salida mediante la codificacion de prediccion compleja. El sistema codificador recibe una representacion en el dominio del tiempo o en el dominio de la frecuencia de la senal y la suministra a tanto una etapa de mezcla descendente como a un estimador de coeficientes de prediccion. Las partes real e imaginaria de los coeficientes de prediccion se proporcionan a la etapa de mezcla descendente para controlar la conversion de los canales izquierdo y derecho en los canales de mezcla descendente y residual, que se suministran despues a un multiplexador MUX final. Si la senal no se suministro como una representacion en el dominio de la frecuencia al codificador, se transforma en dicha representacion en la etapa de mezcla descendente o en el multiplexador.
Uno de los principios de la codificacion de prediccion es convertir la senal izquierda/derecha en la forma central/lateral, esto es,
f M = {L R)/2
\ S = ( L - R ) / 2
y despues hacer uso de la correlacion restante entre estos canales, es decir fijando
5 = Re{aM} D,
donde a es el coeficiente de prediccion complejo a determinar y D es la senal residual. Es posible elegir a para que la energfa de la senal residual D = S - Re{aM} se minimice. La minimizacion de la energfa se puede efectuar con respecto a la energfa momentanea, una energfa a corto o largo plazo (energfa media), que en el caso de una senal discreta equivale a la optimizacion en el sentido cuadratico medio.
Las partes real e imaginaria aR, ai del coeficiente de prediccion se pueden cuantificar y/o codificar de manera conjunta. Preferiblemente sin embargo, las partes real e imaginaria se cuantifican de manera independiente y uniforme, normalmente con un tamano de paso de 0,1 (numero sin dimension). La resolucion de la banda de frecuencias usada para el coeficiente de prediccion complejo no es necesariamente la misma que la resolucion para los factores de escala de las bandas (sfb; esto es, un grupo de lmeas MDCT que usan el mismo tamano de paso de cuantificacion y rango de cuantificacion) segun el estandar MPEG. En concreto, la resolucion de la banda de frecuencias para el coeficiente de prediccion puede ser una que este justificada psico acusticamente, tal como la escala Bark. Se observa que la resolucion de la banda de frecuencias puede variar en los casos en los que vane la longitud de la transformada.
Como se observa ya, el sistema codificador segun la invencion puede tener la libertad de si aplicar codificacion estereo de prediccion o no, implicando el ultimo caso retroceder a la codificacion L/R o M/S. Dicha decision se puede tomar en base a la trama de tiempo o con mas precision, en base a la banda de frecuencias dentro de una trama de tiempo. Como se observa anteriormente, un resultado negativo de la decision se puede comunicar a la entidad de decodificacion de varias maneras, por ejemplo, mediante el valor de un bit indicador dedicado en cada trama, o mediante la ausencia (o con el valor cero) de un valor del coeficiente de prediccion. La decision positiva se puede comunicar de manera analoga. Una implementacion particularmente ventajosa, que permite el retroceso sin ninguna sobrecarga, hace uso de un cuarto valor reservado del campo de dos bits ms_mascara_presente (vease la AAC MPEG-2, documento ISO/IEC 131818-7) que se transmite por trama de tiempo y se define como sigue:
Redefiniendo el valor 11 para significar “codificacion de prediccion compleja”, el codificador se puede hacer funcionar en todos los modos tradicionales, concretamente con codificacion M/S y L/R, sin ninguna penalizacion y es capaz aun de la codificacion de prediccion compleja para aquellas tramas en las que sea ventajoso.
La decision sustancial se puede basar en la relacion entre la tasa de datos a calidad de audio. Como una medicion de la calidad, se pueden usar los datos obtenidos usando un modelo psico acustico incluido en el codificador (como a menudo es el caso de los codificadores de audio basados en las MDCT disponibles). En concreto, algunas realizaciones del codificador proporcionan una seleccion optimizada de la tasa de distorsion del coeficiente de prediccion. Por consiguiente, en dichas realizaciones, la parte imaginaria - y posiblemente la parte real tambien -del coeficiente de prediccion se fija a cero si el aumento en la ganancia de prediccion no economiza suficientes bits para la codificacion de la senal residual como para justificar el gasto de los bits requeridos para codificar el coeficiente de prediccion.
Las realizaciones del codificador pueden codificar la informacion relacionada con el TNS en el flujo de bits. Dicha informacion puede incluir los valores de los parametros TNS a aplicar por los filtros TNS (de srntesis) en el lado del decodificador. Si se han de usar identicos conjuntos de parametros t Ns para ambos canales, es economico incluir un bit de senalizacion que indique esta identidad de los conjuntos de parametros en lugar de transmitir los dos conjuntos de parametros de manera independiente. Se puede incluir informacion tambien de si aplicar el TNS antes o despues de la etapa de mezcla ascendente, segun se basa de manera apropiada en, por ejemplo, la evaluacion psico acustica de las dos opciones disponibles.
Como aun otra caractenstica opcional, que es potencialmente beneficiosa desde el punto de vista de la complejidad y la tasa de bits, el codificador se puede adaptar para usar un ancho de banda limitado de manera individual para la codificacion de la senal residual. Las bandas de frecuencias por encima de este lfmite no seran transmitidas al decodificador pero se fijaran a cero. En ciertos casos, las bandas de mayor frecuencia tienen un contenido de energfa tan bajo que ya se cuantifican a cero. La practica normal (cf. el parametro max_sfb en el estandar MPEG) ha supuesto usar la misma limitacion de ancho de banda para tanto la mezcla descendente como las senales
residuales. Por lo tanto, colocando una banda dedicada superior con Ifmite en la senal residual, es posible una reduccion de la tasa de bits con una perdida de calidad no significativa.
Por ejemplo, esto se puede lograr transmitiendo dos parametros max_sfb independientes, uno para la senal de mezcla descendente y otro para la senal residual.
Se senala que si bien los problemas de la determinacion optima del coeficiente de prediccion, la cuantificacion y la codificacion del mismo, el retroceso al modo M/S o L/R, el filtrado TNS y la limitacion del ancho de banda superior etc. se discutieron con referencia al sistema decodificador mostrado en la figura 5, los mismos hechos son igualmente aplicables a las realizaciones que seran descritas a continuacion con referencia a las figuras posteriores.
La figura 6 muestra otro sistema codificador segun la invencion adaptado para realizar la codificacion estereo de prediccion compleja. El sistema recibe como entrada una representacion en el dominio del tiempo de una senal estereo segmentada en tramas de tiempo sucesivas, posiblemente solapadas, y que comprende los canales izquierdo y derecho. Una etapa 601 de suma y diferencia convierte la senal en los canales central y lateral. El canal central se suministra a tanto el modulo 602 MDCT como al modulo 603 MDST, mientras que el canal lateral se suministra a un modulo 604 MDCT solo. El estimador 605 del coeficiente de prediccion estima para cada trama de tiempo - y posiblemente para las bandas de frecuencias individuales dentro de una trama - un valor del coeficiente a de prediccion complejo como se explica anteriormente. El valor del coeficiente a se suministra como un peso a los sumadores 606, 607 ponderados, que forman una senal D residual como una combinacion lineal de las representaciones MDCT y MDST de la senal central y la representacion MDCT de la senal lateral. Preferiblemente, el coeficiente de prediccion complejo se suministra como un peso a los sumadores 606, 607 ponderados representados mediante el mismo esquema de cuantificacion que se usara cuando se codifique en el flujo de bits; esto de manera obvia proporciona una reconstruccion mas fiel, ya que tanto el codificador como el decodificador aplican el mismo valor del coeficiente de prediccion. La senal residual, la senal central (que se puede llamar de manera mas apropiada senal de mezcla descendente cuando aparezca en combinacion con una senal residual) y el coeficiente de prediccion se suministran a una etapa 608 de cuantificacion y multiplexor, que codifica esta y posible informacion adicional como un flujo de bits de salida.
La figura 7 muestra una variacion al sistema codificador de la figura 6. Como esta claro a partir de la similitud de los sfmbolos en la figura, tiene una estructura similar pero tambien la funcionalidad anadida de funcionar en un modo de retroceso de codificacion L/R directa. El sistema codificador se acciona entre el modo de codificacion de prediccion complejo y el modo de retroceso por medio de un conmutador 710 proporcionado inmediatamente por encima de la etapa 709 de cuantificacion y multiplexora combinada. En su posicion superior, como se muestra en la figura, el conmutador 710 hara que el codificador funcione en el modo de retroceso. A partir de los puntos inmediatamente por debajo de los modulos 702, 704 MDCT, la senal central/lateral se suministra a una etapa 705 de suma y diferencia, que despues de convertirla en la forma izquierda/derecha la pasa al conmutador 710, que la conecta a la etapa 709 de cuantificacion y multiplexora combinada.
La figura 8 muestra un sistema codificador segun la presente invencion. Al contrario de los sistemas codificadores de las figuras 6 y 7, esta realizacion deriva los datos MDST requeridos para la codificacion de prediccion compleja directamente desde los datos MDCT, esto es, mediante una transformada de real a imaginario en el dominio de la frecuencia. La transformada de real a imaginario aplica cualquiera de los enfoques discutidos en conexion con los sistemas decodificadores de las figuras 2 y 4. Es importante hacer coincidir el metodo de calculo del decodificador con el del codificador, para que se pueda lograr una decodificacion fiel; preferiblemente, se usan metodos de transformada de real a imaginario identicos en el lado del codificador y el en lado del decodificador. Como para las realizaciones del decodificador, la parte A encerrada por la lmea discontinua y que comprende la transformada 804 de real a imaginario puede ser reemplazada por variantes aproximadas o por el uso de menos tramas de tiempo de entrada como entrada. Del mismo modo, la codificacion se puede simplificar usando cualquiera de los otros enfoques de aproximacion descritos anteriormente.
En un nivel superior, el sistema codificador de la figura 8 tiene una estructura que difiere de la que probablemente seguina por una accion directa de reemplazo del modulo MDST en la figura 7 por un modulo de real a imaginario (conectado de manera adecuada). La presente arquitectura es limpia y logra la funcionalidad de conmutacion entre la codificacion de prediccion y la codificacion L/R directa de una manera robusta y computacionalmente economica. La senal estereo de entrada es suministrada a los modulos 801 de transformada MDCT, que emiten una representacion en el dominio de la frecuencia de cada canal. Esta se proporciona tanto a un conmutador 808 final para accionar el sistema codificador entre sus modos de codificacion de prediccion y directa como a una etapa 802 de suma y diferencia. En la codificacion L/R directa o la codificacion M/S conjunta - que se lleva a cabo en la trama de tiempo para la cual se fija el coeficiente de prediccion a a cero - esta realizacion somete la senal de entrada a solo la transformacion, cuantificacion y multiplexacion, MDCT estando los dos ultimos pasos efectuados por una etapa 807 de cuantificacion y multiplexora combinada dispuesta en el extremo de salida del sistema, donde se suministra el flujo de bits. En la codificacion de prediccion, cada uno de los canales sufren un procesamiento adicional entre la etapa 802 de suma y diferencia y el conmutador 808. A partir de la representacion MDCT de la senal central, la transformada 804 de real a imaginario deriva los datos MDST y los envfa a tanto el estimador 803 de coeficientes de prediccion como el sumador 806 pesado. Como en los sistemas codificadores mostrados en las figuras 6 y 7, se usa un sumador 805 pesado adicional para combinar la senal lateral con las representaciones
MDCT y MDST ponderadas de la senal central para formar una senal del canal residual, que se codifica junto con el canal central (esto es, de mezcla descendente) y el coeficiente de prediccion mediante el modulo 807 de cuantificacion y multiplexor combinado.
Volviendo ahora a la figura 9, se ilustrara que cada una de las realizaciones del sistema codificador se puede combinar con uno o mas filtros TNS (de analisis). De acuerdo con las discusiones anteriores, a menudo es ventajoso aplicar un filtrado TNS a la senal en su forma de mezcla descendente. Por tanto, como se muestra en la figura 9, la adaptacion del sistema codificador de la figura 7 para incluir el TNS es efectuado mediante la adicion de los filtros 911 TNS inmediatamente por encima del modulo 909 de cuantificacion y multiplexor combinado.
En lugar del filtro 911 b TNS derecho/residual, se pueden proporcionar dos filtros TNS separados (no mostrados) de manera inmediatamente por encima de la parte del conmutador 910 adaptados para manejar el canal derecho o residual. Por tanto, cada uno de los dos filtros TNS se suministrara con los respectivos datos de la senal de canal en todos los tiempos, permitiendo un filtrado TNS basado en mas tramas de tiempo que solo la actual. Como ya se ha observado, los filtros TNS son solo un ejemplo de dispositivos de modificacion en el dominio de la frecuencia, dispositivos que de manera notable basan su procesamiento en mas tramas que la actual, lo cual puede beneficiar de dicha ubicacion tanto o mas que hace el filtro TNS.
Como otra posible alternativa a la realizacion mostrada en la figura 9, los filtros TNS para la activacion selectiva se pueden disponer en mas de un punto para cada canal. Esto es similar a la estructura del sistema decodificador mostrado en la figura 4, donde los diferentes conjuntos de filtros TNS pueden ser conectados por medio de conmutadores. Esto permite la seleccion de la etapa disponible mas adecuada para el filtrado TNS para cada trama de tiempo. En concreto, puede ser ventajoso para conmutar entre diferentes ubicaciones en conexion con la conmutacion entre la codificacion estereo de prediccion compleja y otros modos de codificacion.
La figura 11 muestra una variacion basada en el sistema codificador de la figura 8, en el que la segunda representacion en el dominio de la frecuencia de la senal de mezcla descendente es derivada por medio de una transformada 1105 de real a imaginario. De manera similar al sistema decodificador mostrado en la figura 4, este sistema decodificador incluye tambien modulos modificadores en el dominio de la frecuencia activables de manera selectiva, uno 1102 proporcionado por encima de la etapa de mezcla descendente y otro 1109 proporcionado por debajo de la misma. Los modulos 1102, 1109 en el dominio de la frecuencia, que se han ejemplificado en esta figura mediante filtros TNS, se pueden conectar en cada una de las rutas de senal usando los cuatro conmutadores 1103a, 1103b, 1109a y 1109b.
III. Realizaciones de no aparatos
Las realizaciones del tercer y el cuarto aspecto de la invencion se muestran en las figuras 15 y 16. La figura 15 muestra un metodo para decodificar un flujo de bits en una senal estereo, que comprende los siguientes pasos:
1. Un flujo de bits como entrada.
2. El flujo de bits se des cuantifica, mediante lo cual se obtienen una primera representacion en el dominio de la frecuencia de los canales de mezcla descendente y residual de una senal estereo.
3. Se calcula una segunda representacion en el dominio de la frecuencia de la mezcla descendente.
4. Se calcula una senal de canal lateral en base a las tres representaciones en el dominio de la frecuencia de los canales.
5. Se calcula una senal estereo, preferiblemente en la forma izquierda/derecha, en base a los canales lateral y de mezcla descendente.
6. Se emite la senal estereo asf obtenida.
Los pasos 3 a 5 se pueden considerar como un proceso de mezclado ascendente. Cada uno de los pasos 1 a 6 es analogo a la funcionalidad correspondiente en cualquiera de los sistemas decodificadores descritos en las partes anteriores de este texto, y los detalles adicionales en relacion a su implementacion se pueden recuperar en las mismas partes.
La figura 16 muestra un metodo para codificar una senal estereo como una senal de flujo de bits, que comprende los siguientes pasos:
1. Se introduce una senal estereo.
2. La senal estereo se transforma en una primera representacion en el dominio de la frecuencia.
3. Se determina un coeficiente de prediccion complejo.
4. Se mezcla de manera descendente la representacion en el dominio de la frecuencia.
5. Los canales de mezcla descendente y residual se codifican como un flujo de bits junto con el coeficiente de prediccion complejo.
6. Se emite el flujo de bits.
Cada uno de los pasos 1 a 5 es analogo a la funcionalidad correspondiente en cualquiera de los sistemas codificadores en las partes anteriores de este texto, y detalles adicionales en relacion a su implementacion se pueden recuperar en las mismas partes.
Ambos metodos se pueden expresar como instrucciones legibles por un ordenador en la forma de programas de software y pueden ser ejecutadas por un ordenador. El alcance de proteccion de esta invencion se extiende a dicho software y productos de programas informaticos para distribuir dicho software.
IV. Evaluacion empmca
Varias de las realizaciones descritas en la presente memoria se han evaluado de manera empmca. Las partes mas importantes del material experimental obtenido en este proceso se resumiran en esta subseccion.
La realizacion usada para los experimentos tuvo las siguientes caractensticas.
(i) Cada espectro MDST (para una trama de tiempo) se calculo mediante un filtrado de respuesta al impulso finita de dos dimensiones de los espectros actual, anterior y siguiente .
(ii) Se uso un modelo psico acustico del codificador estereo USAC.
(iii) Las partes real e imaginaria del coeficiente a de prediccion complejo se transmitieron en lugar de los parametros PS ICC, CLD e IPD. Las partes real e imaginaria se manejaron de manera independiente, fueron limitadas al rango [-3,0, 3,0] y se cuantificaron usando un tamano de paso de 0,1. Despues se codificaron de manera diferencial en el tiempo y finalmente se les realizo una codificacion Huffman usando el libro de codigos de factores de escala de la USAC. Los coeficientes de prediccion se actualizaron cada segundo en la banda del factor de escala, lo que resulto en una resolucion de frecuencia similar a la de la Envolvente MPEG (vease, por ejemplo, ISO/iEc 23003-1). Este esquema de cuantificacion y codificacion resulto en una tasa media de bits de aproximadamente 2 kb/s para esta informacion lateral estereo en una configuracion tfpica con una tasa de bits objetivo de 96 kb/s.
(iv) El formato de flujo de bits se modifico sin romper los flujos de bits USAC actuales, ya que el elemento del flujo de bits de 2 bits ms_mascara_presente actualmente tiene solo tres posibles valores. Usando un cuarto valor para indicar la prediccion compleja permite un modo de retroceso de la codificacion central/lateral basica sin ningun desperdicio de bits (para mas detalles acerca de este tema, vease la subseccion anterior de esta descripcion).
Las pruebas de escucha se cumplieron segun la metodologfa MUSHRA, implicando en concreto la reproduccion sobre auriculares y el uso de 8 elementos de prueba con una tasa de muestreo de 48 kHz. Tres, cinco o seis sujetos de prueba participaron en cada prueba.
El impacto de las diferentes aproximaciones MDST se evaluo para ilustrar la compensacion practica entre complejidad y calidad que existe entre estas opciones. Los resultados se encontraron en las figuras 12 y 13, la primera mostrando las puntuaciones absolutas obtenidas y la ultima mostrando las puntuaciones diferenciales en relacion a 96s USAC cp1f, esto es, la codificacion estereo unificada en el dominio MDCT mediante prediccion compleja usando una trama MDCT actual para calcular una aproximacion de la MDST. Se puede ver que la ganancia de calidad lograda por la codificacion estereo unificada basada en MDCT aumenta cuando se aplican enfoques computacionalmente mas complejos para calcular el espectro MDST. Considerando la media sobre todas las pruebas, el sistema 96s USAC cp1f basado en trama unica proporciona un aumento significativo en la eficiencia de codificacion sobre la codificacion estereo convencional. En cambio, se obtiene incluso significativamente mejores resultados para la 96s USAC cp3f, es decir la codificacion estereo unificada en el dominio MDCT mediante prediccion compleja usando las tramas MDCT actual, anterior y siguiente para calcular la MDST.
V. Observaciones finales
Las realizaciones adicionales de la presente invencion resultaran evidentes para una persona experta en la tecnica despues de la lectura de la descripcion anterior. Incluso aunque la presente descripcion y los dibujos describen las realizaciones y ejemplos, la invencion no se restringe a estos ejemplos espedficos. Se pueden hacer numerosas modificaciones y variaciones sin salir del alcance de la presente invencion, que se define por las reivindicaciones adjuntas.
Se observa que los metodos y aparatos descritos en esta solicitud se pueden aplicar, despues de las modificaciones apropiadas dentro de las capacidades de una persona experta que incluyen la experimentacion de rutina, para la codificacion de senales que tienen mas de dos canales. Se enfatiza de manera particular que cualesquiera senales, parametros y matrices mencionadas en las conexiones con las realizaciones descritas pueden ser variantes en
frecuencia o invariantes en frecuencia y/o variantes en el tiempo o invariantes en el tiempo. Los pasos de computacion descritos se pueden llevar a cabo para una frecuencia o para todas las bandas de frecuencias en cada momento, y todas las entidades se pueden realizar para tener una accion selectiva en frecuencia. Para los propositos de la solicitud, cualquier esquema de cuantificacion se puede adaptar segun los modelos psico acusticos. Se observa ademas que las diversas conversiones de suma y diferencia, esto es, la conversion de la forma de mezcla descendente/residual a la forma pseudo L/R asf como la conversion de L/R a M/S y la conversion de M/S a L/R, son todas de la forma
donde, principalmente, el factor g de ganancia puede variar. Por tanto, ajustando los factores de ganancia de manera individual, es posible compensar una cierta ganancia de codificacion mediante la eleccion apropiada de la ganancia de decodificacion. Ademas, como se daran cuenta las personas expertas en la tecnica, un numero par de transformadas de suma y diferencia dispuestas en serie tienen el efecto de una etapa de paso, posiblemente con una ganancia no unitaria.
Los sistemas y metodos descritos aqu anteriormente se pueden implementar como software, firmware, hardware o una combinacion de los mismos. Ciertos componentes o todos los componentes se pueden implementar como un software ejecutado mediante un procesador o microprocesador de senal digital, o ser implementados como hardware o como un circuito integrado de aplicacion espedfica. Dicho software se puede distribuir en medios legibles por ordenador, que pueden comprender medios de almacenamiento y medios de comunicacion informaticos. Como es sabido por una persona experta en la tecnica, los medios de almacenamiento informaticos incluyen tanto los volatiles como los no volatiles, los medios extrafbles como los no extrafbles implementados en cualquier metodo o tecnologfa para el almacenamiento de la informacion tal como las instrucciones, las estructuras de datos, los modulos de programa u otros datos legibles por un ordenador. Los medios de almacenamiento informaticos incluyen, pero no se limitan a, una RAM, una ROM, una EEPROM, una memoria flash u otra tecnologfa de memoria, un CD-ROM, discos versatiles digitales (DVD) u otro almacenamiento en discos opticos, casetes magneticos, una cinta magnetica, un almacenamiento de discos magneticos u otros dispositivos de almacenamiento magnetico, o cualquier otro medio que se pueda usar para almacenar la informacion deseada y que pueda ser accedido por un ordenador. Ademas, es sabido por una persona experta que los medios de comunicacion normalmente realizan instrucciones, estructuras de datos, modulos de programa u otros datos legibles por un ordenador en una senal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de informacion.
Claims (15)
1. Un sistema decodificador para proporcionar una senal estereo mediante codificacion estereo de prediccion compleja, comprendiendo el sistema decodificador:
una etapa (206, 207, 210, 211; 306, 307, 308, 309, 312; 406, 407, 408, 409,;1410; 1421; 1433) de mezcla ascendente adaptada para generar la senal estereo en base a las primeras representaciones en el dominio del tiempo de una senal (M) de mezcla descendente y una senal (D) residual, comprendiendo cada una de las primeras representaciones en el dominio de la frecuencia unos primeros componentes que representan el contenido espectral de la senal correspondiente expresada en un primer sub espacio de un espacio multi dimensional, comprendiendo la etapa de mezcla ascendente:
un modulo (206; 306, 307; 408) para calcular una segunda representacion en el dominio de la frecuencia de la senal de mezcla descendente basada en la primera representacion en el dominio de la frecuencia de la misma, comprendiendo la segunda representacion en el dominio de la frecuencia los segundos componentes espectrales que representan el contenido espectral de la senal expresado en un segundo sub espacio del espacio multidimensional que incluye una parte del espacio multidimensional no incluido en el primer sub espacio;
un sumador (210, 211; 308, 309; 406, 407) ponderado para calcular una senal (S) lateral en base a la primera y la segunda representaciones en el dominio de la frecuencia de la senal de mezcla descendente, la primera representacion en el dominio de la frecuencia de la senal residual y un coeficiente (a) de prediccion complejo codificado en una senal de flujo de bits; y
una etapa (207; 312; 409) de suma y diferencia para calcular la senal estereo en base a la primera representacion en el dominio de la frecuencia de la senal de mezcla descendente y de la senal lateral, en donde la etapa de mezcla ascendente se adapta para aplicar lfmites de ancho de banda independientes para la senal de mezcla descendente y la senal residual; en donde los lfmites del ancho de banda indican para cada una de entre la senal de mezcla descendente y la senal residual la mayor banda de frecuencias a ser decodificada.
2. El sistema decodificador de la reivindicacion 1, en donde los lfmites de ancho de banda a aplicar se senalan mediante dos campos de datos, que indican para cada una de las senales la mayor banda de frecuencias a decodificar.
3. El sistema decodificador de la reivindicacion 2, adaptado para recibir un flujo de bits MPEG en el que cada uno de dichos campos de datos se codifica como un valor de max_sfb.
4. El sistema decodificador de cualquiera de las reivindicaciones anteriores, que comprende ademas:
una etapa (202; 301; 401) de descuantificacion dispuesta por encima de la etapa de mezcla ascendente, para proporcionar dichas representaciones en el dominio de la frecuencia de la senal (M) de mezcla descendente y de la senal (D) residual en base a una senal de flujo de bits.
5. El sistema decodificador de cualquiera de las reivindicaciones anteriores, en donde:
los primeros componentes espectrales tienen valores reales expresados en el primer sub espacio;
los segundos componentes espectrales tienen valores imaginarios expresados en el segundo sub espacio;
en donde los primeros componentes espectrales son obtenibles mediante una de las siguientes:
una transformada de coseno discreta, DCT, o
una transformada de coseno discreta modificada, MDCT,
y, los segundos componentes espectrales son obtenibles mediante una de los siguientes:
una transformada de seno discreta, DST, o
una transformada de seno discreta modificada, MDST,
6. El sistema decodificador de cualquiera de las reivindicaciones anteriores, que comprende ademas al menos un modulo (204; 303; 403) de conformado de ruido temporal, TNS, dispuesto por encima de la etapa de mezcla ascendente; y
al menos un modulo (410) TNS adicional dispuesto por debajo de la etapa de mezcla superior; y
una disposicion (404, 411) selectora para activar de manera selectiva ya sea:
(a) dicho modulo o modulos TNS por encima de la etapa de mezcla ascendente, o
(b) dicho modulo o modulos TNS adicionales por debajo de la etapa de mezcla ascendente.
7. El sistema decodificador de la reivindicacion 5, en donde:
la senal de mezcla descendente se parte en sucesivas tramas de tiempo, cada una asociada con un valor del coeficiente de prediccion complejo; y
el modulo para calcular una segunda representacion en el dominio de la frecuencia de la senal de mezcla descendente se adapta para desactivarse, en respuesta al valor absoluto de la parte imaginaria del coeficiente de prediccion complejo que es menor que una tolerancia predeterminada para una trama de tiempo, por lo que no genera salida para esa trama de tiempo.
8. El sistema decodificador de cualquiera de las reivindicaciones anteriores, en donde:
los primeros componentes espectrales son coeficientes de transformadas dispuestos en una o mas tramas de tiempo de los coeficientes de transformada, cada bloque generado por la aplicacion de una transformada a un segmento de tiempo de una senal en el dominio del tiempo; y
el modulo para calcular una segunda representacion en el dominio del tiempo de la senal de mezcla descendente se adapta para:
derivar uno o mas primeros componentes intermedios a partir de al menos alguno de los componentes espectrales;
formar una combinacion de dichos uno o mas componentes espectrales segun al menos una parte de una o mas respuestas al impulso para obtener uno o mas segundos componentes intermedios; y
derivar dichos uno o mas segundos componentes espectrales a partir de dichos uno o mas segundos componentes intermedios.
9. El sistema decodificador de la reivindicacion 8, en donde el modulo para calcular una segunda representacion en el dominio de la frecuencia de la senal de mezcla descendente se adapta para obtener dicha trama de tiempo de los segundos componentes espectrales en base a una de las siguientes:
(a) una trama de tiempo contemporanea de los primeros componentes espectrales;
(b) una trama de tiempo contemporanea y anterior de los primeros componentes espectrales; y
(c) una trama de tiempo contemporanea, anterior y posterior de los primeros componentes espectrales.
10. El sistema decodificador de cualquiera de las reivindicaciones anteriores, en donde el modulo para calcular una segunda representacion en el dominio de la frecuencia de la senal de mezcla descendente se adapta para calcular una segunda representacion espectral aproximada que comprende los segundos componentes espectrales aproximados determinados mediante la combinacion de al menos dos primeros componentes espectrales adyacentes en el tiempo y/o adyacentes en frecuencia.
11. El sistema decodificador de cualquiera de las reivindicaciones anteriores, siendo dicha senal estereo representada en el dominio del tiempo y comprendiendo el sistema decodificador ademas:
un ensamblaje (203) de conmutacion dispuesto entre dicha etapa de descuantificacion y dicha etapa de mezcla ascendente, operable para funcionar como ya sea:
(a) una etapa de paso, o
(b) una etapa de suma y diferencia,
permitiendo de este modo la conmutacion entre las senales de entrada codificadas de manera directa y conjunta; una etapa (209) de transformada inversa adaptada para calcular una representacion en el dominio del tiempo de la senal estereo; y
una disposicion (208) selectora dispuesta por encima de la etapa de transformada inversa, adaptada para conectar esta de manera selectiva a ya sea:
(a) un punto por debajo de la etapa de mezcla ascendente, mediante lo cual la senal estereo obtenida mediante prediccion compleja se suministra a la etapa de transformada inversa; o
(b) un punto por debajo del ensamblaje (203) de conmutacion y por encima de la etapa de mezcla ascendente,
mediante lo cual la senal estereo obtenida mediante la codificacion estereo directa se suministra a la etapa de transformada inversa.
12. El sistema decodificador de cualquiera de las reivindicaciones anteriores, en donde el modulo para calcular una segunda representacion en el dominio de la frecuencia de la senal de mezcla descendente comprende:
una etapa (306) de transformada inversa para calcular una representacion en el dominio del tiempo de la senal de mezcla descendente y/o la senal lateral en base a la primera representacion en el dominio de la frecuencia de la senal respectiva en el primer sub espacio del espacio multidimensional; y
una etapa (307) de transformada para calcular la segunda representacion en el dominio de la frecuencia de la senal respectiva en base a la representacion en el dominio del tiempo de la senal,
en donde, la etapa (306) de transformada inversa realiza una transformada de coseno discreta modificada inversa, MDCT, y la etapa de transformada una transformada de seno discreta modificada, MDST.
13. El sistema decodificador de la reivindicacion 12, estando dicha senal estereo representada en el dominio del tiempo y comprendiendo el sistema decodificador ademas:
un ensamblaje (302) de conmutacion dispuesto entre dicha etapa de descuantificacion y dicha etapa de mezcla ascendente, operable para funcionar como ya sea.
(a) una etapa de paso. para usar en la codificacion estereo conjunta; o
(b) una etapa de suma y diferencia, para usar en la codificacion estereo directa;
una etapa (311) de transformada inversa adicional dispuesta en la etapa de mezcla ascendente, para calcular una representacion en el dominio del tiempo de la senal lateral;
una disposicion (305, 310) selectora dispuesta por encima de las etapas (306, 311) de transformada inversa, adaptada para conectar de manera selectiva estas a ya sea:
(a) una etapa (304) de suma y diferencia adicional que a su vez se conecta a un punto por debajo del ensamblaje (302) de conmutacion y por encima de la etapa de mezcla ascendente; o
(b) una senal de mezcla descendente obtenida a partir del ensamblaje (302) de conmutacion y una senal lateral obtenida a partir del sumador (308, 309) ponderado.
14. Un metodo de decodificacion para realizar la mezcla ascendente de una senal estereo de entrada mediante codificacion estereo de prediccion compleja en una senal estereo de salida, en donde:
dicha senal estereo de entrada comprende unas primeras representaciones en el dominio de la frecuencia de una senal (M) de mezcla descendente y un senal (D) residual y un coeficiente (a) de prediccion compleja; y
cada una de dichas representaciones en el dominio de la frecuencia comprende ademas unos primeros componentes espectrales que representan el contenido espectral de la senal correspondiente expresados en un primer sub espacio de un espacio multidimensional,
estando el metodo realizado por una etapa de mezcla ascendente e incluyendo los pasos de:
calcular una segunda representacion en el dominio de la frecuencia de la senal de mezcla descendente en base a la primera representacion en el dominio de la frecuencia de la misma, comprendiendo la segunda representacion en el dominio de la frecuencia los segundos componentes espectrales que representan el contenido espectral de la senal expresada en un segundo sub espacio del espacio multidimensional que incluye una parte del espacio multidimensional no incluida en el primer sub espacio; y
calcular una senal lateral en base a las primeras y segundas representaciones en el dominio de la frecuencia de la senal de mezcla descendente, la primera representacion en el dominio de la frecuencia de la senal residual y el coeficiente de prediccion complejo,
en donde los lfmites del ancho de banda independientes se aplican para la senal de mezcla descendente y la senal residual, en donde los lfmites de ancho de banda independientes indican para cada una entre la senal de mezcla descendente y la senal residual la mayor banda de frecuencias a ser decodificada.
15. Un producto de programa informatico que comprende instrucciones que al ser ejecutadas por un ordenador de proposito general realizan el metodo expuesto en la reivindicacion 14.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US32245810P | 2010-04-09 | 2010-04-09 | |
PCT/EP2011/055374 WO2011124621A1 (en) | 2010-04-09 | 2011-04-06 | Mdct-based complex prediction stereo coding |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2712073T3 true ES2712073T3 (es) | 2019-05-09 |
Family
ID=43952840
Family Applications (9)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES11714256T Active ES2712073T3 (es) | 2010-04-09 | 2011-04-06 | Codificación estéreo de predicción compleja basada en MDCT |
ES11713754T Active ES2763367T3 (es) | 2010-04-09 | 2011-04-06 | Codificación estéreo de predicción compleja basada en MDCT |
ES18206651T Active ES2810824T3 (es) | 2010-04-09 | 2011-04-06 | Sistema decodificador, método de decodificación y programa informático respectivo |
ES19184726T Active ES2935962T3 (es) | 2010-04-09 | 2011-04-06 | Codificación estéreo usando un modo de predicción o un modo de no predicción |
ES20200782T Active ES2935911T3 (es) | 2010-04-09 | 2011-04-06 | Descodificación estéreo de predicción compleja basada en MDCT |
ES22188499T Active ES2982065T3 (es) | 2010-04-09 | 2011-04-06 | Codificación estéreo de predicción compleja basada en MDCT |
ES11713259T Active ES2709755T3 (es) | 2010-04-09 | 2011-04-06 | Descodificación estéreo de predicción compleja basada en TCMD |
ES20184885T Active ES2936278T3 (es) | 2010-04-09 | 2011-04-06 | Codificación estéreo de predicción compleja basada en MDCT |
ES18206652T Active ES2831357T3 (es) | 2010-04-09 | 2011-04-06 | Descodificación estéreo de predicción compleja basada en MDCT |
Family Applications After (8)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES11713754T Active ES2763367T3 (es) | 2010-04-09 | 2011-04-06 | Codificación estéreo de predicción compleja basada en MDCT |
ES18206651T Active ES2810824T3 (es) | 2010-04-09 | 2011-04-06 | Sistema decodificador, método de decodificación y programa informático respectivo |
ES19184726T Active ES2935962T3 (es) | 2010-04-09 | 2011-04-06 | Codificación estéreo usando un modo de predicción o un modo de no predicción |
ES20200782T Active ES2935911T3 (es) | 2010-04-09 | 2011-04-06 | Descodificación estéreo de predicción compleja basada en MDCT |
ES22188499T Active ES2982065T3 (es) | 2010-04-09 | 2011-04-06 | Codificación estéreo de predicción compleja basada en MDCT |
ES11713259T Active ES2709755T3 (es) | 2010-04-09 | 2011-04-06 | Descodificación estéreo de predicción compleja basada en TCMD |
ES20184885T Active ES2936278T3 (es) | 2010-04-09 | 2011-04-06 | Codificación estéreo de predicción compleja basada en MDCT |
ES18206652T Active ES2831357T3 (es) | 2010-04-09 | 2011-04-06 | Descodificación estéreo de predicción compleja basada en MDCT |
Country Status (18)
Country | Link |
---|---|
US (19) | US9378745B2 (es) |
EP (12) | EP3582217B1 (es) |
JP (22) | JP5814341B2 (es) |
KR (14) | KR101944328B1 (es) |
CN (6) | CN103119647B (es) |
AU (3) | AU2011237869B2 (es) |
BR (6) | BR122019026130B1 (es) |
CA (15) | CA3097372C (es) |
DK (2) | DK2556504T3 (es) |
ES (9) | ES2712073T3 (es) |
IL (21) | IL295039B2 (es) |
MX (3) | MX2012011530A (es) |
MY (2) | MY164393A (es) |
PL (2) | PL2556502T3 (es) |
RU (6) | RU2559899C2 (es) |
SG (4) | SG10202101745XA (es) |
TR (2) | TR201901336T4 (es) |
WO (3) | WO2011124621A1 (es) |
Families Citing this family (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3097372C (en) * | 2010-04-09 | 2021-11-30 | Dolby International Ab | Mdct-based complex prediction stereo coding |
EP2375409A1 (en) * | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
EP3779975B1 (en) * | 2010-04-13 | 2023-07-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder and related methods for processing multi-channel audio signals using a variable prediction direction |
WO2012150482A1 (en) * | 2011-05-04 | 2012-11-08 | Nokia Corporation | Encoding of stereophonic signals |
US8798180B1 (en) * | 2011-11-16 | 2014-08-05 | Marvell International Ltd. | Method and apparatus for transmitting time domain signals over a network |
JP5949270B2 (ja) * | 2012-07-24 | 2016-07-06 | 富士通株式会社 | オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム |
MX351193B (es) * | 2012-08-10 | 2017-10-04 | Fraunhofer Ges Forschung | Codificador, decodificador, sistema y metodo que emplean un concepto residual para codificar objetos de audio parametricos. |
BR112015010023B1 (pt) * | 2012-11-07 | 2021-10-19 | Dolby Laboratories Licensing Corporation | Codificador de áudio e método para codificar um sinal de áudio |
KR101757341B1 (ko) | 2013-01-29 | 2017-07-14 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 저-복잡도 음조-적응 오디오 신호 양자화 |
WO2014126688A1 (en) | 2013-02-14 | 2014-08-21 | Dolby Laboratories Licensing Corporation | Methods for audio signal transient detection and decorrelation control |
TWI618050B (zh) | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | 用於音訊處理系統中之訊號去相關的方法及設備 |
WO2014126689A1 (en) | 2013-02-14 | 2014-08-21 | Dolby Laboratories Licensing Corporation | Methods for controlling the inter-channel coherence of upmixed audio signals |
CN116665683A (zh) | 2013-02-21 | 2023-08-29 | 杜比国际公司 | 用于参数化多声道编码的方法 |
EP3528249A1 (en) | 2013-04-05 | 2019-08-21 | Dolby International AB | Stereo audio encoder and decoder |
TWI546799B (zh) * | 2013-04-05 | 2016-08-21 | 杜比國際公司 | 音頻編碼器及解碼器 |
CA3211308A1 (en) | 2013-05-24 | 2014-11-27 | Dolby International Ab | Coding of audio scenes |
CA3163664A1 (en) | 2013-05-24 | 2014-11-27 | Dolby International Ab | Audio encoder and decoder |
EP2973551B1 (en) | 2013-05-24 | 2017-05-03 | Dolby International AB | Reconstruction of audio scenes from a downmix |
RU2630754C2 (ru) | 2013-05-24 | 2017-09-12 | Долби Интернешнл Аб | Эффективное кодирование звуковых сцен, содержащих звуковые объекты |
EP3005353B1 (en) | 2013-05-24 | 2017-08-16 | Dolby International AB | Efficient coding of audio scenes comprising audio objects |
EP2824661A1 (en) * | 2013-07-11 | 2015-01-14 | Thomson Licensing | Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals |
EP3399522B1 (en) * | 2013-07-18 | 2019-09-11 | Nippon Telegraph and Telephone Corporation | Linear prediction analysis device, method, program, and storage medium |
EP2830052A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension |
EP2830061A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
EP2830053A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal |
CN105493182B (zh) | 2013-08-28 | 2020-01-21 | 杜比实验室特许公司 | 混合波形编码和参数编码语音增强 |
CN105556597B (zh) | 2013-09-12 | 2019-10-29 | 杜比国际公司 | 多声道音频内容的编码和解码 |
RU2665281C2 (ru) | 2013-09-12 | 2018-08-28 | Долби Интернэшнл Аб | Временное согласование данных обработки на основе квадратурного зеркального фильтра |
KR20160072131A (ko) * | 2013-10-02 | 2016-06-22 | 슈트로밍스위스 게엠베하 | 다채널 신호의 다운믹스 및 다운믹스 신호의 업믹스 방법 및 장치 |
EP2879131A1 (en) | 2013-11-27 | 2015-06-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder, encoder and method for informed loudness estimation in object-based audio coding systems |
KR101832368B1 (ko) * | 2014-01-24 | 2018-02-26 | 니폰 덴신 덴와 가부시끼가이샤 | 선형 예측 분석 장치, 방법, 프로그램 및 기록 매체 |
EP2916319A1 (en) | 2014-03-07 | 2015-09-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for encoding of information |
US9741349B2 (en) * | 2014-03-14 | 2017-08-22 | Telefonaktiebolaget L M Ericsson (Publ) | Audio coding method and apparatus |
CN109036441B (zh) * | 2014-03-24 | 2023-06-06 | 杜比国际公司 | 对高阶高保真立体声信号应用动态范围压缩的方法和设备 |
WO2015150384A1 (en) | 2014-04-01 | 2015-10-08 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
KR102196190B1 (ko) | 2014-04-10 | 2020-12-30 | 주식회사 만도 | 차량용 전자제어 브레이크 장치의 피스톤 펌프 어셈블리 |
JP6270992B2 (ja) * | 2014-04-24 | 2018-01-31 | 日本電信電話株式会社 | 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置、プログラム及び記録媒体 |
JP6270993B2 (ja) | 2014-05-01 | 2018-01-31 | 日本電信電話株式会社 | 符号化装置、及びその方法、プログラム、記録媒体 |
CN113808598A (zh) * | 2014-06-27 | 2021-12-17 | 杜比国际公司 | 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法 |
CN106471822B (zh) * | 2014-06-27 | 2019-10-25 | 杜比国际公司 | 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备 |
CN105336334B (zh) * | 2014-08-15 | 2021-04-02 | 北京天籁传音数字技术有限公司 | 多声道声音信号编码方法、解码方法及装置 |
WO2016066743A1 (en) * | 2014-10-31 | 2016-05-06 | Dolby International Ab | Parametric encoding and decoding of multichannel audio signals |
CN112967727A (zh) * | 2014-12-09 | 2021-06-15 | 杜比国际公司 | Mdct域错误掩盖 |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
EP3067889A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for signal-adaptive transform kernel switching in audio coding |
TWI693594B (zh) | 2015-03-13 | 2020-05-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
ES2904275T3 (es) * | 2015-09-25 | 2022-04-04 | Voiceage Corp | Método y sistema de decodificación de los canales izquierdo y derecho de una señal sonora estéreo |
WO2017125559A1 (en) | 2016-01-22 | 2017-07-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling |
EP3405950B1 (en) * | 2016-01-22 | 2022-09-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Stereo audio coding with ild-based normalisation prior to mid/side decision |
EP3208800A1 (en) | 2016-02-17 | 2017-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for stereo filing in multichannel coding |
US9959877B2 (en) * | 2016-03-18 | 2018-05-01 | Qualcomm Incorporated | Multi channel coding |
EP3246923A1 (en) | 2016-05-20 | 2017-11-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing a multichannel audio signal |
US10217467B2 (en) * | 2016-06-20 | 2019-02-26 | Qualcomm Incorporated | Encoding and decoding of interchannel phase differences between audio signals |
RU2628201C1 (ru) * | 2016-07-07 | 2017-08-15 | Самсунг Электроникс Ко., Лтд. | Способ адаптивного квантования для кодирования изображения радужной оболочки |
EP3539126B1 (en) | 2016-11-08 | 2020-09-30 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for downmixing or upmixing a multichannel signal using phase compensation |
CA3045847C (en) * | 2016-11-08 | 2021-06-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder |
US10210874B2 (en) * | 2017-02-03 | 2019-02-19 | Qualcomm Incorporated | Multi channel coding |
US10475457B2 (en) * | 2017-07-03 | 2019-11-12 | Qualcomm Incorporated | Time-domain inter-channel prediction |
US10553743B2 (en) | 2017-11-20 | 2020-02-04 | The Government Of The United States Of America, As Represented By The Secretary Of The Navy | Flexible crystalline ultra-thin Si solar cells |
TWI812658B (zh) | 2017-12-19 | 2023-08-21 | 瑞典商都比國際公司 | 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統 |
US11532316B2 (en) | 2017-12-19 | 2022-12-20 | Dolby International Ab | Methods and apparatus systems for unified speech and audio decoding improvements |
WO2019121982A1 (en) | 2017-12-19 | 2019-06-27 | Dolby International Ab | Methods and apparatus for unified speech and audio decoding qmf based harmonic transposer improvements |
TWI702594B (zh) * | 2018-01-26 | 2020-08-21 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建技術之回溯相容整合 |
CN110556116B (zh) | 2018-05-31 | 2021-10-22 | 华为技术有限公司 | 计算下混信号和残差信号的方法和装置 |
CN114420139A (zh) * | 2018-05-31 | 2022-04-29 | 华为技术有限公司 | 一种下混信号的计算方法及装置 |
TWI681384B (zh) * | 2018-08-01 | 2020-01-01 | 瑞昱半導體股份有限公司 | 音訊處理方法與音訊等化器 |
US11527252B2 (en) * | 2019-08-30 | 2022-12-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | MDCT M/S stereo |
US12062378B2 (en) * | 2020-01-09 | 2024-08-13 | Panasonic Intellectual Property Corporation Of America | Encoding device, decoding device, encoding method, and decoding method |
JP2023548650A (ja) * | 2020-10-09 | 2023-11-20 | フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム |
KR20230004007A (ko) * | 2021-06-30 | 2023-01-06 | 삼성전자주식회사 | 오디오 데이터에 오디오 효과의 중복 적용을 방지하는 방법 및 이를 지원하는 전자 장치 |
WO2023113490A1 (ko) * | 2021-12-15 | 2023-06-22 | 한국전자통신연구원 | 복소수 데이터를 이용한 오디오 처리 방법 및 그를 수행하는 장치 |
Family Cites Families (86)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US165587A (en) | 1875-07-13 | Improvement in vehicle-wheels | ||
GB8913758D0 (en) * | 1989-06-15 | 1989-08-02 | British Telecomm | Polyphonic coding |
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
DE19747132C2 (de) * | 1997-10-24 | 2002-11-28 | Fraunhofer Ges Forschung | Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms |
RU2174714C2 (ru) | 1998-05-12 | 2001-10-10 | Научно-технический центр "Вычислительная техника" | Способ выделения основного тона |
US6539357B1 (en) | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
DE19959156C2 (de) * | 1999-12-08 | 2002-01-31 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals |
WO2003086017A2 (en) * | 2002-04-05 | 2003-10-16 | Koninklijke Philips Electronics N.V. | Signal processing |
DE10234130B3 (de) | 2002-07-26 | 2004-02-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals |
JP4506141B2 (ja) | 2003-10-03 | 2010-07-21 | 日本電気株式会社 | 携帯無線端末 |
RU2374703C2 (ru) | 2003-10-30 | 2009-11-27 | Конинклейке Филипс Электроникс Н.В. | Кодирование или декодирование аудиосигнала |
US6980933B2 (en) | 2004-01-27 | 2005-12-27 | Dolby Laboratories Licensing Corporation | Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients |
WO2005073959A1 (en) | 2004-01-28 | 2005-08-11 | Koninklijke Philips Electronics N.V. | Audio signal decoding using complex-valued data |
DE102004007191B3 (de) | 2004-02-13 | 2005-09-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audiocodierung |
DE102004009955B3 (de) | 2004-03-01 | 2005-08-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite |
CN1677490A (zh) | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
US8843378B2 (en) | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
TWI393121B (zh) | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式 |
TWI497485B (zh) | 2004-08-25 | 2015-08-21 | Dolby Lab Licensing Corp | 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法 |
US8423372B2 (en) * | 2004-08-26 | 2013-04-16 | Sisvel International S.A. | Processing of encoded signals |
US8204261B2 (en) | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
SE0402649D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods of creating orthogonal signals |
SE0402652D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
JP4939424B2 (ja) | 2004-11-02 | 2012-05-23 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 複素値のフィルタ・バンクを用いたオーディオ信号の符号化及び復号化 |
BRPI0517949B1 (pt) * | 2004-11-04 | 2019-09-03 | Koninklijke Philips Nv | dispositivo de conversão para converter um sinal dominante, método de conversão de um sinal dominante, e meio não transitório legível por computador |
US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
WO2006091139A1 (en) | 2005-02-23 | 2006-08-31 | Telefonaktiebolaget Lm Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
US9626973B2 (en) | 2005-02-23 | 2017-04-18 | Telefonaktiebolaget L M Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
KR100736607B1 (ko) | 2005-03-31 | 2007-07-09 | 엘지전자 주식회사 | 오디오 부호화 방법 및 장치 |
US7961890B2 (en) * | 2005-04-15 | 2011-06-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. | Multi-channel hierarchical audio coding with compact side information |
CN101138274B (zh) * | 2005-04-15 | 2011-07-06 | 杜比国际公司 | 用于处理去相干信号或组合信号的设备和方法 |
US7751572B2 (en) * | 2005-04-15 | 2010-07-06 | Dolby International Ab | Adaptive residual audio coding |
WO2007004831A1 (en) | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Method and apparatus for encoding and decoding an audio signal |
US7693709B2 (en) | 2005-07-15 | 2010-04-06 | Microsoft Corporation | Reordering coefficients for waveform coding or decoding |
US7684981B2 (en) | 2005-07-15 | 2010-03-23 | Microsoft Corporation | Prediction of spectral coefficients in waveform coding and decoding |
JP5108767B2 (ja) | 2005-08-30 | 2012-12-26 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号をエンコーディング及びデコーディングするための装置とその方法 |
EP1912206B1 (en) * | 2005-08-31 | 2013-01-09 | Panasonic Corporation | Stereo encoding device, stereo decoding device, and stereo encoding method |
US8259840B2 (en) | 2005-10-24 | 2012-09-04 | General Motors Llc | Data communication via a voice channel of a wireless communication network using discontinuities |
US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
CA2636330C (en) | 2006-02-23 | 2012-05-29 | Lg Electronics Inc. | Method and apparatus for processing an audio signal |
EP1999747B1 (en) | 2006-03-29 | 2016-10-12 | Koninklijke Philips N.V. | Audio decoding |
EP1853092B1 (en) | 2006-05-04 | 2011-10-05 | LG Electronics, Inc. | Enhancing stereo audio with remix capability |
US8027479B2 (en) | 2006-06-02 | 2011-09-27 | Coding Technologies Ab | Binaural multi-channel decoder in the context of non-energy conserving upmix rules |
KR101435893B1 (ko) | 2006-09-22 | 2014-09-02 | 삼성전자주식회사 | 대역폭 확장 기법 및 스테레오 부호화 기법을 이용한오디오 신호의 부호화/복호화 방법 및 장치 |
DE602007013415D1 (de) * | 2006-10-16 | 2011-05-05 | Dolby Sweden Ab | Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung |
KR20090076964A (ko) * | 2006-11-10 | 2009-07-13 | 파나소닉 주식회사 | 파라미터 복호 장치, 파라미터 부호화 장치 및 파라미터 복호 방법 |
KR101434198B1 (ko) | 2006-11-17 | 2014-08-26 | 삼성전자주식회사 | 신호 복호화 방법 |
AU2007322488B2 (en) | 2006-11-24 | 2010-04-29 | Lg Electronics Inc. | Method for encoding and decoding object-based audio signal and apparatus thereof |
DE102006055737A1 (de) * | 2006-11-25 | 2008-05-29 | Deutsche Telekom Ag | Verfahren zur skalierbaren Codierung von Stereo-Signalen |
WO2008096313A1 (en) | 2007-02-06 | 2008-08-14 | Koninklijke Philips Electronics N.V. | Low complexity parametric stereo decoder |
ES2452348T3 (es) | 2007-04-26 | 2014-04-01 | Dolby International Ab | Aparato y procedimiento para sintetizar una señal de salida |
CN101067931B (zh) | 2007-05-10 | 2011-04-20 | 芯晟(北京)科技有限公司 | 一种高效可配置的频域参数立体声及多声道编解码方法与系统 |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
US8385556B1 (en) | 2007-08-17 | 2013-02-26 | Dts, Inc. | Parametric stereo conversion system and method |
US8521540B2 (en) * | 2007-08-17 | 2013-08-27 | Qualcomm Incorporated | Encoding and/or decoding digital signals using a permutation value |
JP5363488B2 (ja) | 2007-09-19 | 2013-12-11 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチチャネル・オーディオのジョイント強化 |
MX2010004220A (es) * | 2007-10-17 | 2010-06-11 | Fraunhofer Ges Forschung | Codificacion de audio usando mezcla descendente. |
CN101202043B (zh) | 2007-12-28 | 2011-06-15 | 清华大学 | 音频信号的编码方法和装置与解码方法和装置 |
KR20100095586A (ko) | 2008-01-01 | 2010-08-31 | 엘지전자 주식회사 | 신호 처리 방법 및 장치 |
US8103005B2 (en) * | 2008-02-04 | 2012-01-24 | Creative Technology Ltd | Primary-ambient decomposition of stereo audio signals using a complex similarity index |
KR101452722B1 (ko) | 2008-02-19 | 2014-10-23 | 삼성전자주식회사 | 신호 부호화 및 복호화 방법 및 장치 |
JP5266341B2 (ja) | 2008-03-03 | 2013-08-21 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
AU2009221443B2 (en) * | 2008-03-04 | 2012-01-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus for mixing a plurality of input data streams |
BRPI0908630B1 (pt) * | 2008-05-23 | 2020-09-15 | Koninklijke Philips N.V. | Aparelho de 'upmix' estéreo paramétrico, decodificador estéreo paramétrico, método para a geração de um sinal esquerdo e de um sinal direito a partir de um sinal de 'downmix' mono com base em parâmetros espaciais, dispositivo de execução de áudio, aparelho de 'downmix' estéreo paramétrico, codificador estéreo paramétrico, método para a geração de um sinal residual de previsão para um sinal de diferença a partir de um sinal esquerdo e de um sinal direito com base nos parâmetros espaciais, e, produto de programa de computador |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
KR101428487B1 (ko) * | 2008-07-11 | 2014-08-08 | 삼성전자주식회사 | 멀티 채널 부호화 및 복호화 방법 및 장치 |
CA2836871C (en) * | 2008-07-11 | 2017-07-18 | Stefan Bayer | Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs |
EP2144231A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
KR101756834B1 (ko) | 2008-07-14 | 2017-07-12 | 삼성전자주식회사 | 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치 |
ES2592416T3 (es) * | 2008-07-17 | 2016-11-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Esquema de codificación/decodificación de audio que tiene una derivación conmutable |
US8619856B2 (en) * | 2008-10-03 | 2013-12-31 | Qualcomm Incorporated | Video coding with large macroblocks |
KR101649376B1 (ko) * | 2008-10-13 | 2016-08-31 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
KR101433701B1 (ko) | 2009-03-17 | 2014-08-28 | 돌비 인터네셔널 에이비 | 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩 |
US8392200B2 (en) | 2009-04-14 | 2013-03-05 | Qualcomm Incorporated | Low complexity spectral band replication (SBR) filterbanks |
US8346547B1 (en) * | 2009-05-18 | 2013-01-01 | Marvell International Ltd. | Encoder quantization architecture for advanced audio coding |
CA2777073C (en) * | 2009-10-08 | 2015-11-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
KR101710113B1 (ko) * | 2009-10-23 | 2017-02-27 | 삼성전자주식회사 | 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법 |
JP5299327B2 (ja) * | 2010-03-17 | 2013-09-25 | ソニー株式会社 | 音声処理装置、音声処理方法、およびプログラム |
CA3097372C (en) * | 2010-04-09 | 2021-11-30 | Dolby International Ab | Mdct-based complex prediction stereo coding |
EP2375409A1 (en) * | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
EP3779975B1 (en) * | 2010-04-13 | 2023-07-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder and related methods for processing multi-channel audio signals using a variable prediction direction |
BR112015010023B1 (pt) * | 2012-11-07 | 2021-10-19 | Dolby Laboratories Licensing Corporation | Codificador de áudio e método para codificar um sinal de áudio |
EP4372602A3 (en) * | 2013-01-08 | 2024-07-10 | Dolby International AB | Model based prediction in a critically sampled filterbank |
CA3211308A1 (en) * | 2013-05-24 | 2014-11-27 | Dolby International Ab | Coding of audio scenes |
FR3007563A1 (fr) * | 2013-06-25 | 2014-12-26 | France Telecom | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
-
2011
- 2011-04-06 CA CA3097372A patent/CA3097372C/en active Active
- 2011-04-06 EP EP19184726.8A patent/EP3582217B1/en active Active
- 2011-04-06 KR KR1020187001783A patent/KR101944328B1/ko active IP Right Grant
- 2011-04-06 CN CN201180025305.2A patent/CN103119647B/zh active Active
- 2011-04-06 ES ES11714256T patent/ES2712073T3/es active Active
- 2011-04-06 SG SG10202101745XA patent/SG10202101745XA/en unknown
- 2011-04-06 IL IL295039A patent/IL295039B2/en unknown
- 2011-04-06 MX MX2012011530A patent/MX2012011530A/es active IP Right Grant
- 2011-04-06 SG SG2012069738A patent/SG184167A1/en unknown
- 2011-04-06 US US13/638,901 patent/US9378745B2/en active Active
- 2011-04-06 PL PL11713259T patent/PL2556502T3/pl unknown
- 2011-04-06 KR KR1020217031115A patent/KR102537360B1/ko active IP Right Grant
- 2011-04-06 ES ES11713754T patent/ES2763367T3/es active Active
- 2011-04-06 EP EP11713259.7A patent/EP2556502B1/en active Active
- 2011-04-06 EP EP22190159.8A patent/EP4120247B1/en active Active
- 2011-04-06 KR KR1020147006735A patent/KR101698439B1/ko active IP Right Grant
- 2011-04-06 CA CA3185301A patent/CA3185301A1/en active Pending
- 2011-04-06 EP EP18206652.2A patent/EP3474278B1/en active Active
- 2011-04-06 DK DK11714256.2T patent/DK2556504T3/en active
- 2011-04-06 CN CN201510245573.5A patent/CN104851427B/zh active Active
- 2011-04-06 WO PCT/EP2011/055374 patent/WO2011124621A1/en active Application Filing
- 2011-04-06 CA CA2793317A patent/CA2793317C/en active Active
- 2011-04-06 MX MX2012011532A patent/MX2012011532A/es active IP Right Grant
- 2011-04-06 MY MYPI2012004218A patent/MY164393A/en unknown
- 2011-04-06 KR KR1020197020021A patent/KR102168140B1/ko active IP Right Grant
- 2011-04-06 EP EP11713754.7A patent/EP2556503B1/en active Active
- 2011-04-06 WO PCT/EP2011/055350 patent/WO2011124608A1/en active Application Filing
- 2011-04-06 CA CA3040779A patent/CA3040779C/en active Active
- 2011-04-06 KR KR1020127029106A patent/KR101586198B1/ko active IP Right Grant
- 2011-04-06 CA CA2793140A patent/CA2793140C/en active Active
- 2011-04-06 SG SG10202104412WA patent/SG10202104412WA/en unknown
- 2011-04-06 KR KR1020177001234A patent/KR101823870B1/ko active IP Right Grant
- 2011-04-06 ES ES18206651T patent/ES2810824T3/es active Active
- 2011-04-06 CA CA3076786A patent/CA3076786C/en active Active
- 2011-04-06 CN CN201180023421.0A patent/CN102884570B/zh active Active
- 2011-04-06 KR KR1020127029113A patent/KR101437899B1/ko active IP Right Grant
- 2011-04-06 US US13/638,900 patent/US9159326B2/en active Active
- 2011-04-06 WO PCT/EP2011/055369 patent/WO2011124616A1/en active Application Filing
- 2011-04-06 AU AU2011237869A patent/AU2011237869B2/en active Active
- 2011-04-06 RU RU2012143501/08A patent/RU2559899C2/ru active
- 2011-04-06 KR KR1020197002371A patent/KR102011793B1/ko active IP Right Grant
- 2011-04-06 IL IL286761A patent/IL286761B/en unknown
- 2011-04-06 JP JP2013503104A patent/JP5814341B2/ja active Active
- 2011-04-06 CA CA2988745A patent/CA2988745C/en active Active
- 2011-04-06 EP EP24170668.8A patent/EP4376000A3/en active Pending
- 2011-04-06 BR BR122019026130-0A patent/BR122019026130B1/pt active IP Right Grant
- 2011-04-06 PL PL11714256T patent/PL2556504T3/pl unknown
- 2011-04-06 RU RU2012144366/08A patent/RU2554844C2/ru active
- 2011-04-06 IL IL311483A patent/IL311483A/en unknown
- 2011-04-06 EP EP18206651.4A patent/EP3474277B1/en active Active
- 2011-04-06 BR BR112012025863-0A patent/BR112012025863B1/pt active IP Right Grant
- 2011-04-06 RU RU2012147499/08A patent/RU2525431C2/ru active
- 2011-04-06 EP EP20200782.9A patent/EP3799043B8/en active Active
- 2011-04-06 EP EP22188294.7A patent/EP4120246A1/en active Pending
- 2011-04-06 CA CA2992917A patent/CA2992917C/en active Active
- 2011-04-06 BR BR122019026166-0A patent/BR122019026166B1/pt active IP Right Grant
- 2011-04-06 RU RU2015121322A patent/RU2683175C2/ru active
- 2011-04-06 EP EP20184885.0A patent/EP3739577B1/en active Active
- 2011-04-06 CN CN201510245509.7A patent/CN104851426B/zh active Active
- 2011-04-06 CN CN201510437095.8A patent/CN105023578B/zh active Active
- 2011-04-06 TR TR2019/01336T patent/TR201901336T4/tr unknown
- 2011-04-06 AU AU2011237877A patent/AU2011237877B2/en active Active
- 2011-04-06 MY MYPI2016000052A patent/MY184661A/en unknown
- 2011-04-06 BR BR112012025868-0A patent/BR112012025868B1/pt active IP Right Grant
- 2011-04-06 KR KR1020127029111A patent/KR101437896B1/ko active IP Right Grant
- 2011-04-06 KR KR1020217001535A patent/KR20210008945A/ko not_active Application Discontinuation
- 2011-04-06 CA CA2921437A patent/CA2921437C/en active Active
- 2011-04-06 ES ES19184726T patent/ES2935962T3/es active Active
- 2011-04-06 ES ES20200782T patent/ES2935911T3/es active Active
- 2011-04-06 TR TR2019/01375T patent/TR201901375T4/tr unknown
- 2011-04-06 CA CA2924315A patent/CA2924315C/en active Active
- 2011-04-06 ES ES22188499T patent/ES2982065T3/es active Active
- 2011-04-06 BR BR122019013299-2A patent/BR122019013299B1/pt not_active IP Right Cessation
- 2011-04-06 SG SG10201502597QA patent/SG10201502597QA/en unknown
- 2011-04-06 CA CA3125378A patent/CA3125378C/en active Active
- 2011-04-06 BR BR112012025878-8A patent/BR112012025878B1/pt active IP Right Grant
- 2011-04-06 CA CA3105050A patent/CA3105050C/en active Active
- 2011-04-06 DK DK11713259.7T patent/DK2556502T3/en active
- 2011-04-06 CN CN201180028342.9A patent/CN102947880B/zh active Active
- 2011-04-06 KR KR1020157025399A patent/KR101698442B1/ko active IP Right Grant
- 2011-04-06 EP EP22188499.2A patent/EP4116969B1/en active Active
- 2011-04-06 ES ES11713259T patent/ES2709755T3/es active Active
- 2011-04-06 ES ES20184885T patent/ES2936278T3/es active Active
- 2011-04-06 EP EP11714256.2A patent/EP2556504B1/en active Active
- 2011-04-06 CA CA2793320A patent/CA2793320C/en active Active
- 2011-04-06 IL IL303558A patent/IL303558B2/en unknown
- 2011-04-06 KR KR1020197023095A patent/KR102207086B1/ko active IP Right Grant
- 2011-04-06 KR KR1020237017236A patent/KR20230074851A/ko not_active Application Discontinuation
- 2011-04-06 AU AU2011237882A patent/AU2011237882B2/en active Active
- 2011-04-06 KR KR1020147006732A patent/KR101698438B1/ko active IP Right Grant
- 2011-04-06 JP JP2013503101A patent/JP5814340B2/ja active Active
- 2011-04-06 JP JP2013503096A patent/JP5813094B2/ja active Active
- 2011-04-06 CA CA3110542A patent/CA3110542C/en active Active
- 2011-04-06 ES ES18206652T patent/ES2831357T3/es active Active
- 2011-04-06 US US13/638,898 patent/US9111530B2/en active Active
- 2011-04-06 CA CA3045686A patent/CA3045686C/en active Active
- 2011-04-06 MX MX2012011528A patent/MX2012011528A/es active IP Right Grant
-
2012
- 2012-09-12 IL IL221911A patent/IL221911A/en active IP Right Grant
- 2012-09-13 IL IL221962A patent/IL221962A/en active IP Right Grant
- 2012-10-09 IL IL222294A patent/IL222294A/en active IP Right Grant
-
2015
- 2015-03-02 JP JP2015040746A patent/JP6062467B2/ja active Active
- 2015-07-07 US US14/793,297 patent/US9892736B2/en active Active
- 2015-09-17 JP JP2015184493A patent/JP6203799B2/ja active Active
- 2015-09-17 JP JP2015184492A patent/JP6197011B2/ja active Active
-
2016
- 2016-05-01 IL IL245338A patent/IL245338A/en active IP Right Grant
- 2016-05-03 IL IL245444A patent/IL245444A/en active IP Right Grant
- 2016-06-01 US US15/170,100 patent/US9761233B2/en active Active
- 2016-12-14 JP JP2016242097A patent/JP6437990B2/ja active Active
-
2017
- 2017-02-20 IL IL250687A patent/IL250687B/en active IP Right Grant
- 2017-07-17 IL IL253522A patent/IL253522B/en active IP Right Grant
- 2017-08-07 US US15/670,709 patent/US10347260B2/en active Active
- 2017-08-14 IL IL253972A patent/IL253972B/en active IP Right Grant
- 2017-08-21 JP JP2017158657A patent/JP6405008B2/ja active Active
- 2017-08-30 JP JP2017165152A patent/JP6405010B2/ja active Active
- 2017-12-20 US US15/849,622 patent/US10283126B2/en active Active
- 2017-12-20 US US15/849,645 patent/US10276174B2/en active Active
- 2017-12-20 US US15/849,653 patent/US10283127B2/en active Active
-
2018
- 2018-02-28 IL IL25779218A patent/IL257792B/en active IP Right Grant
- 2018-09-13 JP JP2018171632A patent/JP6633707B2/ja active Active
- 2018-09-13 JP JP2018171542A patent/JP6633706B2/ja active Active
- 2018-11-15 JP JP2018214489A patent/JP6665260B2/ja active Active
- 2018-12-17 US US16/222,721 patent/US10360920B2/en active Active
-
2019
- 2019-02-11 IL IL264774A patent/IL264774B/en active IP Right Grant
- 2019-02-19 IL IL264905A patent/IL264905B/en active IP Right Grant
- 2019-03-11 RU RU2019106714A patent/RU2698154C1/ru active
- 2019-05-28 US US16/424,395 patent/US10586545B2/en active Active
- 2019-05-31 US US16/427,735 patent/US10475459B2/en active Active
- 2019-06-04 US US16/431,081 patent/US10475460B2/en active Active
- 2019-06-07 RU RU2019117738A patent/RU2717387C1/ru active
- 2019-06-17 IL IL267420A patent/IL267420B/en active IP Right Grant
- 2019-06-24 US US16/449,942 patent/US10553226B2/en active Active
- 2019-06-25 JP JP2019117104A patent/JP6677846B2/ja active Active
- 2019-09-23 IL IL269537A patent/IL269537B/en active IP Right Grant
- 2019-10-04 US US16/593,235 patent/US10734002B2/en active Active
- 2019-12-12 JP JP2019224408A patent/JP6833962B2/ja active Active
- 2019-12-12 JP JP2019224406A patent/JP6833961B2/ja active Active
-
2020
- 2020-02-16 IL IL272689A patent/IL272689B/en active IP Right Grant
- 2020-02-20 US US16/796,150 patent/US11264038B2/en active Active
- 2020-03-13 JP JP2020043882A patent/JP6740496B2/ja active Active
- 2020-06-23 IL IL275616A patent/IL275616B/en active IP Right Grant
- 2020-07-16 US US16/931,377 patent/US11217259B2/en active Active
- 2020-07-22 JP JP2020125072A patent/JP6817486B2/ja active Active
- 2020-12-24 JP JP2020215098A patent/JP6886069B2/ja active Active
-
2021
- 2021-01-18 IL IL280247A patent/IL280247B/en unknown
- 2021-01-28 IL IL280464A patent/IL280464B/en unknown
- 2021-05-13 JP JP2021081465A patent/JP6961854B2/ja active Active
- 2021-10-13 JP JP2021167954A patent/JP7193603B2/ja active Active
- 2021-12-23 US US17/560,295 patent/US11810582B2/en active Active
-
2022
- 2022-12-08 JP JP2022196162A patent/JP7451659B2/ja active Active
-
2023
- 2023-11-06 US US18/502,973 patent/US20240144940A1/en active Pending
-
2024
- 2024-03-06 JP JP2024033809A patent/JP2024056001A/ja active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2712073T3 (es) | Codificación estéreo de predicción compleja basada en MDCT | |
ES2698023T3 (es) | Decodificador de audio y método relacionado que usan procesamiento de dos canales dentro de un marco de relleno inteligente de huecos | |
BR122020007937B1 (pt) | Sistema decodificador para prover um sinal estéreo por codificação estéreo de predição complexa e método de decodificação para realizar uma mistura ascendente de um sinal estéreo de entrada por codificação estéreo de predição complexa para um sinal estéreo de saída |