ES2690278T3 - Concepto para puentear el espacio entre codificación parámetrica de audio multicanal y codificación multicanal envolvente matricial - Google Patents

Concepto para puentear el espacio entre codificación parámetrica de audio multicanal y codificación multicanal envolvente matricial Download PDF

Info

Publication number
ES2690278T3
ES2690278T3 ES06743182.5T ES06743182T ES2690278T3 ES 2690278 T3 ES2690278 T3 ES 2690278T3 ES 06743182 T ES06743182 T ES 06743182T ES 2690278 T3 ES2690278 T3 ES 2690278T3
Authority
ES
Spain
Prior art keywords
signal
multichannel
parametric data
parametric
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES06743182.5T
Other languages
English (en)
Inventor
Johannes Hilpert
Christof Faller
Karsten Linzmeier
Ralph Sperschneider
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Agere Systems LLC
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Agere Systems LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36873210&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2690278(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV, Agere Systems LLC filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2690278T3 publication Critical patent/ES2690278T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

Decodificador de audio multicanal (200) para procesar una señal de audio de mezcla descendente (204) derivada de una manera compatible con envolvente matricial y para procesar primeros datos paramétricos (206) que describen una primera porción de una señal multicanal, en el que para una segunda porción de la señal multicanal no se procesan datos paramétricos o segundos datos paramétricos (208), requiriendo los segundos datos paramétricos (208) menos unidades de información que los primeros datos paramétricos (206) cuando se describe una porción idéntica de la señal multicanal, que comprende: un procesador (202) para derivar una señal intermedia (210) a partir de la señal de audio de mezcla descendente (204), usando una primera regla de derivación para derivar una primera porción de la señal intermedia, correspondiendo la primera porción de la señal intermedia a la primera porción de la señal de audio multicanal, en el que la primera regla de derivación depende de los primeros datos paramétricos (206) y comprende un primer conjunto de elementos de matriz de una matriz de predecorrelación (M1) o una matriz de mezcla (M2); y usando una segunda regla de derivación para derivar una segunda porción de la señal intermedia, no usando la segunda regla de derivación ningún dato paramétrico o los segundos datos paramétricos (208), en el que el procesador (202) es operativo para calcular la segunda regla de derivación a partir de la información en la señal de audio de mezcla descendente (204) o a partir de los segundos datos paramétricos (208) y comprende un segundo conjunto de elementos de matriz de la matriz de predecorrelación (M1) o la matriz de mezcla (M2), en el que la primera porción y la segunda porción son una porción de tiempo o una porción de frecuencia.

Description

5
10
15
20
25
30
35
40
45
50
55
Concepto para puentear el espacio entre codificación parámetrica de audio multicanal y codificación multicanal
envolvente matricial
DESCRIPCIÓN
Campo de la Invención
La presente invención se refiere a codificación y transmisión de audio multicanal, y en particular a técnicas para codificar audio multicanal en una manera que es completamente compatible de manera inversa con dispositivos y formatos estéreo, permitiendo una codificación eficiente de audio multicanal.
Antecedentes de la Invención y Técnica Anterior
La codificación paramétrica de señales de audio multicanal es un tema de investigación actual. Generalmente pueden distinguirse dos procedimientos para codificar señales de audio multicanal. El Grupo de Expertos en Imágenes en Movimiento (MPEG), un subgrupo de la Organización Internacional de Normalización (ISO), está actualmente trabajando en la estandarización de la tecnología para la reconstrucción de contenido de audio multicanal de señales estéreo o incluso mono de mezcla descendente añadiendo únicamente una cantidad pequeña de información auxiliar a las señales de mezcla descendente.
En paralelo al estéreo, se están desarrollando métodos de mezcla ascendente multicanal que no necesitan ninguna información secundaria adicional que no se encuentra ya contenida (implícitamente) en la señal de mezcla descendente para reconstruir la imagen espacial de la señal de audio multicanal original.
Los métodos existentes para transmisión multicanal compatible con estéreo sin información secundaria adicional que obtiene relevancia práctica, pueden caracterizarse mayormente como métodos de envolvente matricial, tal como Dolby Pro Logic (Dolby Pro Logic II) y Logic-7, como se describe en más detalle en “Dolby Surround Pro Logic II Decoder - Principles of Operation”,
http://www.dolby.com/assets/pdf/tech_library/209_Dolby_Surround_Pro_Logic_II_ Decoder_Principles_of_Operation.pdf y en “Multichannel Matrix Surround Decoders for Two-Eared Listeners”, Griesinger, D., 101a Convención de AES, Los Ángeles, Estados Unidos, 1996, Publicación 4402. El principio común de estos métodos es que usan maneras especializadas de mezcla descendente estéreo o multicanal en el que el codificador aplica desplazamientos de fase a los canales envolventes antes de mezclarlos con los canales, frontal y central, para formar una señal de mezcla descendente estéreo. La generación de la señal de mezcla descendente (Lt, Rt) se representa en la siguiente ecuación:
imagen1
La señal de mezcla descendente izquierda (Lt) consiste de la señal frontal izquierda (Lf), la señal central (C) multiplicada por un factor q, la señal envolvente izquierda (Ls) girada en fase por 90 grados, ('j') y escalada por un factor a, y la señal envolvente derecha (Rs) que también se gira en fase por 90 grados y escalada por un factor b. La señal de mezcla descendente derecha (Rt) se genera de manera similar. Los factores de mezcla descendente típicos son 0,707 para q y a, y 0,408 para b. El razonamiento para las diferentes señales de los canales envolventes para la señal de mezcla descendente derecha (Rt) y la señal de mezcla descendente izquierda (Lt) es, que es ventajoso mezclar los canales envolventes en anti-fase en el par de mezcla descendente (Lt, Rt). Esta propiedad ayuda al decodificador a discriminar entre los canales, frontal y posterior, del par de señal de mezcla descendente. Por lo tanto, la matriz de mezcla descendente permite una reconstrucción parcial de una señal de salida multicanal que sale de la mezcla descendente estéreo dentro del decodificador aplicando una operación de de-matrización. Qué tanto la señal multicanal recreada se parece a la señal de entrada del codificador original, sin embargo, depende de las propiedades específicas del contenido de audio multicanal.
Un ejemplo de un método de codificación para agregar información auxiliar, también llamada información secundaria, es la codificación de audio envolvente MPEG. Esta manera eficiente para codificación de audio multicanal paramétrica, se describe por ejemplo en “The Reference Model Architecture for MPEG Spatial Audio Coding”, Herre, J., Purnhagen, H., Breebaart, J., Faller, C., Disch, S., Kjoerling, K., Schuijers, E., Hilpert, J., Myburg, F., Proc. 118a Convención de AES, Barcelona, España, 2005 y en “Text of Working Draft for Spatial Audio Coding (SAC)”, ISO/IEC JTC1/SC29/WG11 (MPEG), Documento N7136, Busan, Corea, 2005.
Una revisión esquemática de un codificador usado en codificación de audio espacial se muestra en la Figura 6. El
2
5
10
15
20
25
30
35
40
45
50
55
60
codificador divide las señales entrantes 10 (entrada 1, ... entrada N) en cintas de frecuencia de tiempo separadas por medio de Filtros Espejo en Cuadratura 12 (QMF). Los grupos de las cintas (bandas) de frecuencia resultantes se denominan como “bandas de parámetro”. Para cada banda de parámetro, se determina un número de parámetros espaciales 14 mediante un estimador de parámetro 16 que describe las propiedades de la imagen espacial, por ejemplo diferencias de nivel entre pares de canales (CLD), correlación transversal entre pares de canales (ICC) o información en envolturas de señal (CPC). Estos parámetros se cuantifican posteriormente, codifican y compilan de manera conjunta en una secuencia de bits de datos espaciales. Dependiendo del modo de operación, esta secuencia de bits puede cubrir un amplio intervalo de tasas de bits, iniciando desde unos pocos kBit/s para audio multicanal de buena calidad hasta décimas de kBit/s para calidad casi transparente.
Además de la extracción de los parámetros, el codificador también genera una mezcla descendente mono o estéreo de la señal de entrada multicanal. Además, en el caso de una mezcla descendente estéreo, el usuario tiene la elección de una mezcla descendente estéreo convencional (estilo ITU) o de una mezcla descendente que es compatible con sistemas de envolvente matricial. Finalmente, la mezcla descendente estéreo se transfiere al dominio de tiempo por medio de bancos de síntesis QMF 18. La mezcla descendente resultante puede transmitirse a un decodificador, acompañado por los parámetros espaciales o la secuencia de bits de parámetro espacial 14. Preferentemente, la mezcla descendente se codifica también antes de la transmisión (usando un codificador de núcleo mono o estéreo convencional), mientras las secuencias de bits del codificador de núcleo y los parámetros espaciales adicionalmente pueden combinarse (multiplexarse) para formar una secuencia de bits de salida única.
Un decodificador, como se representa en la Figura 7, en principio realiza el proceso inverso del codificador. Un flujo de entrada se divide en una secuencia de bits del codificador núcleo y una secuencia de bits de parámetro. Esto no se muestra en la Figura 7. Posteriormente, la mezcla descendente decodificada 20 se procesa por un banco de análisis QMF 22 para derivar las bandas de parámetro que son las mismas que aquellas aplicadas en el codificador. Una etapa de síntesis espacial 24 reconstruye la señal multicanal por medio de datos de control 26 (es decir, los parámetros espaciales transmitidos). Finalmente, las señales de dominio QMF se transfieren al dominio de tiempo por medio de un banco de síntesis QMF 27 que deriva las señales de salida multicanal finales 28.
La Figura 8 muestra un ejemplo simple de un análisis QMF, como se realiza dentro del codificador de la técnica anterior en la Figura 6 y el decodificador de la técnica anterior en la Figura 7. Una muestra de audio 30, muestreada en el dominio de tiempo y que tiene cuatro valores de muestra se introduce en un banco de filtro 32. El banco de filtro 32 deriva tres muestras de salida 34a, 34b y 34c teniendo cuatro valores de muestra cada una. En un caso ideal, el banco de filtro 32 deriva las muestras de salida 34a a 34c de manera que las muestras dentro de las señales de salida comprenden únicamente información acerca de los intervalos de frecuencia discretos de la señal de audio subyacente 30. En el caso mostrado en la Figura 8, la muestra 34a tiene información acerca del intervalo de frecuencia que va desde fü a fi, la muestra 34b tiene información del intervalo de frecuencia f f2] y la muestra 34c tiene información acerca del intervalo de frecuencia [f2, f3]. Aunque los intervalos de frecuencia en la Figura 8 no se solapan, en un caso más general los intervalos de frecuencia de las muestras de salida que salen de un banco de filtro pueden tener perfectamente un solapamiento de frecuencia.
Un codificador de la técnica anterior puede, como ya se describe anteriormente, suministrar o bien una mezcla descendente estilo ITU o bien una mezcla descendente compatible con envolvente matricial, cuando se desea una mezcla descendente de dos canales. En el caso de una mezcla descendente compatible con envolvente matricial (usando por ejemplo el procedimiento de matriz dado en la Ecuación 1), una posibilidad sería que el codificador generase una mezcla descendente compatible con envolvente matricial directamente.
La Figura 9 muestra un procedimiento alternativo para generar una mezcla descendente compatible con envolvente matricial usando una unidad de procesamiento posterior de mezcla descendente 30 funcionando en una mezcla descendente estéreo regular 32. El procesador de envolvente matricial 30 (codificador MTX) modifica la mezcla descendente de estéreo regular 32 para hacerlo compatible con envolvente matricial guiado por los parámetros espaciales 14 extraídos por la etapa de extracción de parámetro 16. Para transmisión, se transfiere una mezcla descendente compatible con envolvente matricial 34 al dominio de tiempo por una síntesis QMF usando el banco de síntesis QMF 18.
Derivando la señal compatible con envolvente matricial mediante el procesamiento posterior de una mezcla descendente estéreo regular tiene la ventaja de que el procesamiento de compatibilidad con envolvente matricial puede invertirse completamente en un lado de decodificador si los parámetros espaciales están disponibles.
Aunque ambos procedimientos son adecuados para transmitir una señal multicanal, existen desventajas específicas del estado del sistema de la materia. Los métodos de envolvente matricial son muy eficientes (ya que no se requiere ningún parámetro adicional) al precio de una calidad de reconstrucción multicanal muy limitada.
Los procedimientos multicanal paramétricos por el otro lado requieren una tasa de transmisión de bits más alta debido a la información secundaria, que se vuelve un problema cuando se fija un límite como una tasa de
5
10
15
20
25
30
35
40
45
50
55
60
transmisión de bits aceptable máxima para la representación paramétrica. Cuando los parámetros codificados requieren una cantidad comparativamente alta de tasa de bits, la única manera posible de permanecer dentro de tal límite de tasa de transmisión de bits es disminuir la calidad de un canal de mezcla descendente codificado al incrementar la compresión del canal. Por lo tanto, el resultado es una pérdida general en calidad de audio, que puede ser inaceptablemente alta. En otras palabras, para procedimientos multicanal paramétricos, con frecuencia existe un límite estricto de la tasa de transmisión de bits mínima que se requiere para la capa de parámetro espacial, que puede, en algunos casos, ser inaceptablemente alta.
Aunque la compatibilidad inversa principal entre los métodos de envolvente matricial y métodos de audio espacial pueden lograrse mediante un codificador de la técnica anterior como se ilustra en la Figura 9, ninguna tasa de transmisión de bits adicional puede ahorrarse con este procedimiento cuando únicamente se requiere la decodificación basada en matriz. Aún después el conjunto completo de parámetros espaciales tiene que transmitirse, desperdiciando el ancho de banda de transmisión.
Mientras que la tasa de bits que tiene que gastarse cuando se aplica el método paramétrico puede ser demasiado alta en caso de ciertos escenarios de aplicación, la calidad del audio suministrado por los métodos sin transmisión de información secundaria puede no ser suficiente.
La solicitud de Patente Europea EP 1 376 538 describe un enfoque de codificación/decodificación llamado codificación/decodificación multicanal/indicación híbrida de señales de audio. La solicitud propone codificar una parte del espectro en las señales de entrada usando técnicas de codificación convencionales, mientras otra parte del espectro se codifica usando codificación de indicación binaural (BCC). La parte codificada con BCC del espectro se codifica generando una mezcla descendente de las señales de entrada y parámetros BCC que describen una propiedad espacial de la señal multicanal, de manera que permite una reconstrucción de la señal multicanal basándose en la señal de mezcla descendente y los parámetros BCC transmitidos.
La Solicitud de Patente de Estados Unidos 2005157883 muestra un aparato para construir una señal de audio multicanal que usa una señal de entrada e información secundaria paramétrica, la señal de entrada incluye el primer canal de entrada y el segundo canal de entrada derivados de una señal multicanal original, y la información secundaria paramétrica que describe las interrelaciones entre canales de la señal original multicanal.
Sumario de la Invención
Es el objeto de la presente invención proporcionar un concepto de una codificación más eficiente de señales de audio multicanal mientras es compatible de manera inversa con las soluciones de codificación basada en matriz.
De acuerdo con un primer aspecto de la presente invención, este objeto se logra mediante un decodificador de audio multicanal de acuerdo con la reivindicación 1. De acuerdo con un segundo aspecto de la presente invención, este objeto se logra mediante un codificador multicanal de acuerdo con la reivindicación 10. De acuerdo con un tercer aspecto de la presente invención, este objeto se logra mediante un método para procesar una señal de audio de mezcla descendente de acuerdo con la reivindicación 11. De acuerdo con un cuarto aspecto de la presente invención, este objeto se logra mediante un método para generar una representación paramétrica que describe propiedades espaciales de una señal de audio multicanal de acuerdo con la reivindicación 12. De acuerdo con un quinto aspecto de la presente invención, este objeto se logra mediante un programa informático de acuerdo con la reivindicación 13. La presente invención se basa en el descubrimiento de que una señal de audio multicanal puede representarse de manera eficiente por una representación paramétrica, cuando una primera regla de derivación se usa para derivar primeros datos paramétricos de la representación paramétrica que describe una primera porción de la señal multicanal, y cuando para una segunda porción de la señal multicanal no se incluyen segundos datos paramétricos o ningún dato paramétrico en la representación paramétrica, mientras que los segundos datos paramétricos requieren menos unidades de información que los primeros datos paramétricos cuando se describe una porción idéntica de la señal multicanal.
De esta manera, una primera porción de la señal multicanal se representa por los primeros parámetros que permiten una reconstrucción de la señal multicanal con calidad más alta y una segunda porción puede representarse por segundos parámetros que permiten una reconstrucción con calidad ligeramente inferior. La tasa de transmisión de bits consumida por los primeros datos paramétricos es consecuentemente más alta que la tasa de transmisión de bits consumida por los segundos datos paramétricos cuando ambos datos paramétricos son para describir la misma porción de una señal multicanal. En otras palabras, los primeros parámetros requieren más tasa de transmisión de bits por porción de señal que los segundos parámetros.
El propósito de la invención es puentear el espacio entre ambos mundos de la técnica anterior al mejorar gradualmente el sonido de la señal de mezcla ascendente mientras eleva la tasa de transmisión de bits consumida por la información secundaria empezando desde 0 hasta la tasa de bits de los métodos paramétricos. Es decir, la presente invención ayuda a puentear el espacio en tasas de transmisión de bits y la calidad perceptual entre
5
10
15
20
25
30
35
40
45
50
55
60
métodos completamente paramétricos y métodos de envolvente matricial. Más específicamente, proporciona un método para elegir de manera flexible un “punto de operación” en algún lugar entre envolvente matricial (sin información secundaria, calidad de audio limitada) y reconstrucción completamente paramétrica (tasa de información secundaria completa requerida, buena calidad). Este punto de operación puede elegirse dinámicamente (es decir, variando en tiempo) y en respuesta a la tasa de información secundaria permisible, según se dicte por la aplicación individual.
Al elegir de manera dinámica el tamaño de la primera porción de la señal de audio multicanal que es la parte de la señal de audio multicanal que se representa por los parámetros de audio espaciales, la tasa de transmisión de bits demandada puede variarse dentro de un intervalo amplio . La representación de las partes principales de una señal multicanal por los parámetros de audio espaciales consumirá una tasa de transmisión de bits comparativamente alta en el beneficio de una buena calidad perceptual. Ya que para la segunda porción de la señal de audio multicanal se elige una regla para derivar un parámetro, lo que resulta en parámetros que consumen menos tasa de bits, la tasa de transmisión de bits total resultante puede disminuirse al incrementar el tamaño de la segunda porción de la señal multicanal. En una realización preferida de la presente invención, no se transmite ningún dato paramétrico en absoluto para la segunda porción de la señal multicanal, que por supuesto ahorra más bits. Por lo tanto, al cambiar de manera dinámica el tamaño de la primera porción con respecto al tamaño de la segunda porción, la tasa de transmisión de bits (o la calidad perceptual) puede ajustarse de manera dinámica a las necesidades.
En una realización preferida de la presente invención, una señal de mezcla descendente se deriva en una manera compatible con la matriz. Por lo tanto, la primera porción de la señal de audio multicanal puede reproducirse con alta calidad perceptual usando los parámetros de audio espaciales y la segunda porción de la señal multicanal puede reproducirse usando soluciones basadas en matriz. Esto permite una reproducción de alta calidad de partes de las señales que requieren calidad más alta. Al mismo tiempo, la tasa de transmisión de bits total se disminuye al depender de la reproducción basada en matriz para las partes de señal menos vitales para la calidad de una señal reproducida.
En una realización preferida adicional de la presente invención, el concepto inventivo se aplica decodificador dentro de una representación QMF de una señal de mezcla descendente recibida. mezclado ascendente puede subdividirse principalmente en tres etapas:
Pre-procesamiento de las señales de entrada (señales de mezcla descendente recibidas en el
mediante la aplicación de una matriz de pre-decorrelacionador;
Decorrelación de parte de las señales pre-procesadas; y
Mezcla de las señales así derivadas (señales pre-procesadas y señales decorrelacionadas) dentro de una matriz
de mezcla, siendo la salida de la mezcla los canales de la señal de mezcla ascendente.
Tanto la matriz de pre-decorrelacionador así como la matriz mezclada son matrices bidimensionales con las dimensiones “número de espacios de tiempo” por un lado y “número de bandas de parámetro” por el otro lado. Dentro de un proceso de decodificación, los elementos de estas matrices se rellenan con valores que se derivan de los parámetros leídos de la secuencia de bits espacial, es decir por los primeros datos paramétricos. Cuando los primeros datos paramétricos únicamente se reciben para una primera porción de la señal multicanal, únicamente esa porción de una reconstrucción de una señal multicanal puede derivarse usando los primeros datos paramétricos presentados. Los elementos de matriz para derivar la segunda parte de la reconstrucción de la señal multicanal, de acuerdo a la presente invención, se derivan usando esquemas de codificación compatibles con la matriz. Estos elementos de matriz, por lo tanto, pueden o bien derivarse basándose en únicamente el conocimiento logrado de la señal de mezcla descendente o bien reemplazarse por los valores pre-definidos.
En una realización preferida, un decodificador de audio multicanal de acuerdo a la presente invención reconoce por la cantidad de los primeros datos paramétricos transmitidos, qué parte de la matriz o qué parte de la señal de audio multicanal tiene que procesarse por la regla que depende de los parámetros espaciales y qué parte tiene que procesarse por la solución basada en matriz.
En otra realización de la presente invención, un codificador de audio crea información de ventana, indicando qué partes de una señal multicanal tiene que procesarse por la solución basada en matriz o por el procedimiento compatible con audio espacial. La información de ventana se incluye en la representación paramétrica de una señal multicanal.
Un decodificador inventivo, por lo tanto, es capaz de recibir y procesar la información de ventana creada para aplicar las reglas de mezclado ascendente apropiadas en las porciones de la señal de audio multicanal indicadas por la información de ventana.
en el lado de El proceso de
dominio QMF)
En una realización preferida de la presente invención, el concepto inventivo se aplica en el dominio QMF durante el
5
10
15
20
25
30
35
40
45
50
55
60
procesamiento de señal, es decir, en un dominio en el que las señales se representan mediante múltiples representaciones, manteniendo cada representación información acerca de una cierta banda de frecuencia.
En una realización preferida adicional de la presente invención, el método libre de información secundaria (procedimiento basado en matriz) se aplica únicamente a las partes de frecuencia más alta mientras aplica (explícitamente) información paramétrica (es decir la primera regla de codificación y decodificación) para una reproducción apropiada de las partes de baja frecuencia. Esto es ventajoso debido a la propiedad del oído humano para notar desviaciones pequeñas de dos señales similares (por ejemplo, desviaciones de fase) mucho más fácil para frecuencias bajas que para frecuencias altas.
Un gran beneficio de la presente invención es que se consigue una compatibilidad inversa de un esquema de codificación y decodificación de audio espacial con soluciones basadas en matriz sin tener que introducir hardware o software adicional cuando las reglas de codificación y decodificación de los codificadores de audio espaciales se eligen de manera apropiada.
Además, la compatibilidad se consigue sin tener que transmitir datos adicionales, como es el caso en otros intentos de la técnica anterior. El esquema de codificación de acuerdo a la presente invención es además extremadamente flexible, ya que permite un ajuste sin interrupciones de la tasa de transmisión de bits o la calidad, es decir una transmisión suave entre codificación basada en matriz completa a codificación de audio espacial completa de una señal dada. Es decir, el esquema de codificación aplicado puede ajustarse a las necesidades reales, ya sea con respecto a la tasa de transmisión de bits requerida o con respecto a la calidad deseada.
Breve Descripción de los Dibujos
Las realizaciones preferidas de la presente invención se describen posteriormente haciendo referencia a los dibujos adjuntos, en los que:
la Figura 1 muestra un codificador inventivo;
la Figura 2 muestra un ejemplo de una secuencia de bits del parámetro creada por el concepto inventivo; la Figura 2a muestra un transcodificador inventivo; la Figura 3 muestra un decodificador inventivo;
la Figura 4 muestra un ejemplo de un decodificador de audio espacial que implementa el concepto inventivo;
la Figura ilustra el uso de los diferentes esquemas de codificación en un lado de decodificador;
la Figura 6 muestra un codificador de la técnica anterior;
la Figura 7 muestra un decodificador de la técnica anterior;
la Figura 8 muestra un diagrama de bloques de un banco de filtro; y
la Figura 9 muestra un ejemplo adicional de un codificador de la técnica anterior.
Descripción detallada de las realizaciones preferidas
La Figura 1 muestra un codificador multicanal inventivo. El codificador multicanal 100 tiene un generador de parámetros 102 y una interfaz de salida 104.
Una señal de audio multicanal 106 se introduce en el codificador 100, en el que se procesan una primera porción 108 y una segunda porción 110 de la señal multicanal 106. El generador de parámetros 102 recibe la primera porción 108 y la segunda porción 110 y deriva parámetros espaciales que describen propiedades espaciales de la señal multicanal 106.
Los parámetros espaciales se transfieren a la interfaz de salida 104 que deriva una representación paramétrica 112 de la señal multicanal 106 de manera que la representación paramétrica 112 incluye primeros datos paramétricos para una primera porción 108 de la señal multicanal y en el que para una segunda porción 110 de la señal multicanal 106 segundos datos paramétricos que requieren menos información que los primeros datos paramétricos o ningún dato paramétrico se incluyen en la representación paramétrica 112.
Son posibles varias variaciones del codificador multicanal 100 para lograr el mismo objetivo. Por ejemplo, el generador de parámetros 102 puede aplicar dos reglas de derivación de parámetros diferentes en la primera porción 108 y en la segunda porción 110 lo que resulta en diferentes conjuntos de parámetros que se transfieren entonces a la interfaz de salida 104 que combina los diferentes conjuntos de parámetros en la representación paramétrica 112. Un caso especial y preferido es que para la segunda porción 110 no se incluya ningún parámetro en la representación paramétrica (y por lo tanto no se deriva mediante el generador de parámetros 102) ya que en un lado de decodificador, el decodificador deriva los parámetros de decodificación requeridos mediante algunas reglas heurísticas.
Otra posibilidad es que el generador de parámetros 102 derive un conjunto completo de parámetros de audio
5
10
15
20
25
30
35
40
45
50
55
60
espaciales tanto para la primera porción 108 como para la segunda porción 110. Por lo tanto, la interfaz de salida 104 tendría que procesar los parámetros espaciales de manera que los segundos datos paramétricos requieren menos bits que los primeros datos paramétricos.
Además, la interfaz de salida 104 podría agregar una señal de ventana adicional a la representación paramétrica 112 que señalizaría a un decodificador, cómo se dividió la señal multicanal 106 en la primera porción 108 y en la segunda porción 110 durante la codificación. En una modificación de la realización preferida de un codificador multicanal 100, el codificador multicanal 100 puede tener adicionalmente un decididor de porción para decidir qué parte de la señal multicanal 106 se usa como la primera porción 108 y qué parte se usa como la segunda porción 110, basándose la decisión en un criterio de calidad.
El criterio de calidad puede derivarse con respecto a una tasa de transmisión de bits total resultante de la representación paramétrica 112 o con respecto a los aspectos de calidad, teniendo en cuenta la calidad perceptual de una reproducción de la señal multicanal 106 basándose en la representación paramétrica 112.
Una ventaja principal es que la tasa de transmisión de bits consumida por la representación paramétrica puede de esta manera variarse en tiempo, asegurando que el criterio de calidad se satisface en cualquier momento durante la codificación mientras permite una reducción total de la tasa de transmisión de bits requerida en comparación con los métodos de la técnica anterior.
La Figura 2 muestra un ejemplo de una representación paramétrica 112 creada por un codificador inventivo.
Como se menciona arriba, el procesamiento de las señales de audio se hace por bloques, es decir un número de muestras posteriores de la señal multicanal en el dominio de tiempo, que forma una así llamada trama, se procesa en una etapa. La Figura 2 muestra una secuencia de bits del parámetro, es decir una representación paramétrica para dos tramas consecutivas. La secuencia de bits del parámetro tiene una representación de una trama de alta calidad 120 y una representación de una trama de calidad inferior 122. Durante la codificación de la trama de alta calidad 120, se toma la decisión de que la primera porción 108, que se representa mediante datos paramétricos, tiene que ser grande en comparación con la segunda porción, que puede, por ejemplo, ser el caso si la escena de audio por codificar es compleja. La secuencia de bits del parámetro de la Figura 2 se crea además bajo la suposición de que se usa una realización preferida de un codificador inventivo que no deriva ningún dato paramétrico para la segunda porción 110 de la señal multicanal 106. Como puede observarse en la Figura 2, 28 parámetros espaciales ICC e ICLD se incluyen en la representación paramétrica para describir la trama de alta calidad 120. Por ejemplo, los 28 parámetros espaciales describen las bandas de frecuencia inferior de una representación QMF de la señal multicanal.
La trama de calidad inferior 122 comprende únicamente 21 conjuntos de parámetros espaciales que tienen ICC e ICLD ya que se encontró que esto es suficiente para la calidad perceptual deseada.
La Figura 2a muestra un transcodificador inventivo 150. El transcodificador inventivo recibe como una entrada una secuencia de bits de entrada 152 que tiene un conjunto completo de parámetros espaciales que describen una primera trama 154 y una segunda trama 156 de una señal de audio multicanal.
El transcodificador 150 genera una secuencia de bits 158 que mantiene una representación paramétrica que representa las propiedades espaciales de la señal de audio multicanal. En el ejemplo mostrado en la Figura 2a, el transcodificador 150 deriva la representación paramétrica de manera que para la primera trama el número de parámetros 160 únicamente se disminuye ligeramente. El número de parámetros 162 que describe la segunda trama correspondiente a los parámetros de entrada 156 se disminuyen fuertemente, lo que reduce significativamente la cantidad de tasa de transmisión de bits necesaria para la representación paramétrica resultante. Tal transcodificador inventivo 150 puede, por lo tanto, usarse para post-procesar una secuencia de bits ya existente de parámetros espaciales para derivar una representación paramétrica inventiva que requiere menos tasa de transmisión de bits durante la transmisión o menos espacio de almacenamiento cuando se almacena en un medio legible por ordenador. Debe observarse aquí que por supuesto, también es posible implementar un transcodificador para transcodificar en la otra dirección, es decir usar la representación paramétrica para generar parámetros espaciales.
El transcodificador inventivo 150 puede implementarse de varias maneras diferentes, como por ejemplo, rediciendo la cantidad de parámetros con una regla dada o recibiendo adicionalmente la señal de audio multicanal para analizar la reducción de tasa de transmisión de bits posible sin perturbar la calidad perceptual más allá de un límite aceptable.
La Figura 3 muestra un decodificador inventivo de audio multicanal 200 que tiene un procesador 202.
El procesador recibe como una entrada una señal de mezcla descendente 204 derivada de una señal de audio multicanal, primeros datos paramétricos 206 que describen una primera porción de la señal multicanal y, para una segunda porción de la señal multicanal, segundos datos paramétricos opcionales 208 requieren menos bits que los
5
10
15
20
25
30
35
40
45
50
55
60
primeros datos paramétricos 206. El procesador 202 deriva una señal intermedia 210 de la señal de mezcla descendente 204 usando una primera regla de derivación para derivar una porción de alta calidad 212 de la señal intermedia, en el que la porción de alta calidad 212 de la señal intermedia 212 corresponde a la primera porción de la señal de audio multicanal. El procesador 202 usa una segunda regla de derivación para una segunda porción 214 de la señal intermedia 210, en el que la segunda regla de derivación usa los segundos datos paramétricos o ningún dato paramétrico y en el que la primera regla de derivación depende de los primeros datos paramétricos 206.
La señal intermedia 210 derivada mediante el procesador 202 se forma a partir de una combinación de la porción de alta calidad 212 y de la segunda porción 214.
El decodificador de audio multicanal 200 puede derivar por sí mismo qué porciones de la señal de mezcla descendente 204 tienen que procesarse con los primeros datos paramétricos 206 aplicando algunas reglas apropiadas, por ejemplo contando el número de parámetros espaciales incluidos en los primeros datos paramétricos 206. Alternativamente, pueden señalizarse al procesador 202 las fracciones de la porción de alta calidad 212 y de la segunda porción 214 dentro la señal de mezcla descendente 204 mediante alguna información de ventana adicional que se deriva en un lado de codificador y que se transmite adicionalmente al decodificador de audio multicanal 200.
En una realización preferida, se omiten los segundos datos paramétricos 208 y el procesador 202 deriva la segunda regla de derivación a partir de la información ya contenida en la señal de mezcla descendente 204.
La Figura 4 muestra una realización adicional de la presente invención que combina la característica inventiva de compatibilidad de matriz en un decodificador de audio espacial. El decodificador de audio multicanal 600 comprende un pre-decorrelacionador 601, un decorrelacionador 602 y una matriz de mezcla 603.
El decodificador de audio multicanal 600 es un dispositivo flexible que permite operar en diferentes modos dependiendo de la configuración de señales de entrada 605 introducidas en el pre-decorrelacionador 601. Generalmente, el pre-decorrelacionador 601 deriva señales intermedias 607 que sirven como entrada para el decorrelacionador 602 y que se transmiten parcialmente sin alterar para formar, junto con las señales decorrelacionadas calculadas por el decorrelacionador 602, señales de entrada 608. Las señales de entrada 608 son las señales introducidas en la matriz de mezcla 603 que deriva configuraciones de canal de salida 610a o 610b, dependiendo de la configuración de canal de entrada 605.
En una configuración de 1 a 5, una señal de mezcla descendente y una señal residual opcional se suministran al pre-decorrelacionador 601, que deriva cuatro señales intermedias (e1 a e4) que se usan como una entrada del decorrelacionador, que deriva cuatro señales decorrelacionadas (d1 a d4) que forman los parámetros de entrada 608 junto con una señal directamente transmitida m derivada de la señal de entrada.
Puede observarse, que en el caso en el que se suministra una señal residual adicional como entrada, el decorrelacionador 602 que funciona generalmente en un dominio sub-banda, puede ser operativo para reenviar simplemente la señal residual en lugar de derivar una señal decorrelacionada. Esto también puede hacerse de una manera selectiva de frecuencia para únicamente ciertas bandas de frecuencia .
En la configuración 2 a 5, las señales de entrada 605 comprenden un canal izquierdo, un canal derecho y opcionalmente una señal residual. En esa configuración, la matriz de pre-decorrelacionador 601 deriva un canal izquierdo, uno derecho y uno central y además dos canales intermedios (e1, e2). Por lo tanto, las señales de entrada a la matriz de mezcla 603 se forman por el canal izquierdo, el canal derecho, el canal central y dos señales decorrelacionadas (d1 y d2).
En una modificación adicional, la matriz de pre-decorrelacionador puede derivar una señal intermedia adicional (es) que se usa como una entrada para un decorrelacionador (D5) cuya salida es una combinación de la señal decorrelacionada (d5) derivada de la señal (e5) y las señales decorrelacionadas (d1 y d2). En este caso, puede garantizarse una decorrelación adicional entre el canal central y el canal derecho e izquierdo.
El decodificador de audio inventivo 600 implementa el concepto inventivo en la configuración 2 a 5. La representación paramétrica transmitida se usa en la matriz de pre-decorrelación 601 y en la matriz de mezcla 603. Aquí, el concepto inventivo puede implementarse de diferentes maneras como se muestra en más detalle en la Figura 5.
La Figura 5 muestra el pre-decorrelacionador, implementado como matriz de pre-decorrelacionador 601 y la matriz de mezcla 603 en un boceto del principio, en el que se omiten los otros componentes del decodificador de audio multicanal 600.
La matriz usada para realizar la pre-decorrelación y la mezcla tiene columnas que representan espacios de tiempo, es decir las muestras de tiempo individuales de una señal y filas que representan las diferentes bandas de
5
10
15
20
25
30
35
40
45
50
55
60
parámetro, es decir cada fila se asocia con una banda de parámetro de una señal de audio.
De acuerdo al concepto de la presente invención, los elementos de matriz de las matrices 601 y 603 se derivan únicamente de manera parcial a partir de datos paramétricos transmitidos, en el que los elementos de matriz restantes se derivan mediante el decodificador, basándose en, por ejemplo, el conocimiento de la señal de mezcla descendente. La Figura 5 muestra un ejemplo en el que por debajo de una línea límite de frecuencia dada 622 los elementos de la matriz de pre-decorrelacionador 601 y la matriz de mezcla 603 se derivan a partir de los parámetros 620 que se leen de la secuencia de bits, es decir basándose en la información transmitida del codificador. Por encima de la línea límite de frecuencia 622 los elementos de matriz se derivan en el decodificador basándose en el conocimiento de la señal de mezcla descendente únicamente.
La frecuencia límite (o en general: la cantidad de elementos de matriz derivados a partir de datos transmitidos) puede adaptarse libremente de acuerdo a la calidad y/o limitaciones de la tasa de bits que tienen que satisfacerse para el escenario de aplicación particular.
Se prefiere para el nuevo método de codificación aquí esbozado que un proceso de mezcla ascendente libre de información secundaria puede realizarse con la misma estructura que se ha esbozado en el Modelo de Referencia de Codificación de Audio Espacial MPEG 0. Esta invención puede consistir en describir un método para mezcla ascendente libre de información secundaria, pero preferentemente proporciona un método para combinación ventajosa y sin interrupciones de tales conceptos con métodos para mezcla ascendente asistida por información secundaria.
Al contrario que el Modelo de Referencia de Codificación de Audio Espacial MPEG 0, en el proceso de mezcla ascendente libre de información secundaria los elementos de las matrices M1 (601) y M2 (603) no se derivan preferentemente de datos transmitidos en una secuencia de bits sino mediante diferentes medios sin la ayuda de la información secundaria, por ejemplo aplicando reglas heurísticas basándose en únicamente un conocimiento conseguido a partir de la señal de mezcla descendente.
De esta manera es posible lograr una escala gradual entre ambas técnicas - en términos de tasa de transmisión de bits así como en términos de calidad de sonido - adquiriendo únicamente partes de las matrices basándose en los parámetros transmitidos y aplicando las reglas del método sin información secundaria para rellenar las partes restantes. Conceptualmente hablando, esto corresponde a transmitir los parámetros espaciales para ciertas partes de las matrices y generar los mismos para otras partes en el decodificador.
La determinación de las partes de las matrices que tienen que derivarse a partir de o bien el un método o bien el otro puede hacerse de muchas diferentes maneras, tales como
• derivar las partes de las matrices por debajo de una línea límite horizontal dada por un método y por encima de esta línea límite por el otro método;
• derivar las partes de las matrices izquierdas de la línea de limite vertical dada por un método y derechas de esta línea de límite por el método;
• determinar las cintas de frecuencia de tiempo arbitrarias dentro de ambas matrices, los elementos de las cuales se derivan por un método y derivar los elementos de las cintas de frecuencia de tiempo restantes por medio del otro método
Se ha detallado en los párrafos anteriores es ventajoso describir todas las partes de frecuencia de una señal multicanal hasta una cierta frecuencia límite mediante parámetros espaciales mientras las partes de frecuencia restantes de la señal multicanal no se representan mediante parámetros espaciales. Esto tiene en cuenta las características del oído humano que tiene una mejor percepción de frecuencias más bajas que de frecuencias más altas. Por su puesto, la presente invención no se limite a esta división de la señal multicanal en una primera porción y una segunda porción ya que también puede ser ventajoso o apropiado describir partes de frecuencia más alta de la señal con mejor precisión. Esto puede ser especialmente el caso cuando en la región de frecuencia más baja se contiene únicamente poca energía en la señal ya que la mayoría de la energía se contiene en un dominio de alta frecuencia de la señal de audio. Debido los efectos de enmascaramiento la parte de frecuencia más baja mayormente se dominará por las partes de alta frecuencia y puede ser ventajoso proporcionar la posibilidad de una reproducción de alta calidad de la parte de frecuencia alta de la señal.
Dependiendo de ciertos requerimientos de implementación de los métodos inventivos, los métodos inventivos pueden implementarse en hardware o en software. La implementación puede realizarse usando un medio de almacenamiento digital, en particular un disco, DVD o un CD que tiene señales de control electrónicamente legibles almacenadas en el mismo, que cooperan con un sistema informático programable de manera que se realizan los métodos inventivos. Generalmente, la presente invención es, por lo tanto, un producto de programa informático con un código de programa almacenado en una portadora legible por máquina, siendo el código de programa operativo para realizar los métodos inventivos cuando el producto de programa informático se ejecuta en un ordenador. En otras palabras, los métodos inventivos son, por lo tanto, un programa informático que tiene un código de programa
para realizar al menos uno de los métodos inventivos cuando el programa informático se ejecuta en un ordenador.

Claims (13)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    REIVINDICACIONES
    1. Decodificador de audio multicanal (200) para procesar una señal de audio de mezcla descendente (204) derivada de una manera compatible con envolvente matricial y para procesar primeros datos paramétricos (206) que describen una primera porción de una señal multicanal, en el que para una segunda porción de la señal multicanal no se procesan datos paramétricos o segundos datos paramétricos (208), requiriendo los segundos datos paramétricos (208) menos unidades de información que los primeros datos paramétricos (206) cuando se describe una porción idéntica de la señal multicanal, que comprende:
    un procesador (202) para derivar una señal intermedia (210) a partir de la señal de audio de mezcla descendente (204),
    usando una primera regla de derivación para derivar una primera porción de la señal intermedia, correspondiendo la primera porción de la señal intermedia a la primera porción de la señal de audio multicanal, en el que la primera regla de derivación depende de los primeros datos paramétricos (206) y comprende un primer conjunto de elementos de matriz de una matriz de predecorrelación (M1) o una matriz de mezcla (M2); y
    usando una segunda regla de derivación para derivar una segunda porción de la señal intermedia, no usando la segunda regla de derivación ningún dato paramétrico o los segundos datos paramétricos (208), en el que el procesador (202) es operativo para calcular la segunda regla de derivación a partir de la información en la señal de audio de mezcla descendente (204) o a partir de los segundos datos paramétricos (208) y comprende un segundo conjunto de elementos de matriz de la matriz de predecorrelación (M1) o la matriz de mezcla (M2),
    en el que la primera porción y la segunda porción son una porción de tiempo o una porción de frecuencia.
  2. 2. Decodificador de audio multicanal (200) de acuerdo con la reivindicación 1, que es operativo para procesar los primeros datos paramétricos (206) que comprenden una descripción de una porción de tiempo de la señal de audio multicanal, en el que únicamente la información sobre una banda de frecuencia predeterminada de la señal de audio multicanal está contenida dentro de la descripción.
  3. 3. Decodificador de audio multicanal (200) de acuerdo con la reivindicación 1, en el que el procesador (200) es operativo para usar la primera regla de derivación para derivar una porción de frecuencia de la señal intermedia (210) que va desde un límite de baja frecuencia a un límite de alta frecuencia.
  4. 4. Decodificador de audio multicanal (200) de acuerdo con la reivindicación 3, que es operativo para procesar adicionalmente una información de ventana que señaliza al menos el límite de alta frecuencia.
  5. 5. Decodificador de audio multicanal (200) de acuerdo con la reivindicación 3, que es operativo para derivar al menos el límite de alta frecuencia a partir de los primeros datos paramétricos (206) usando una regla de estimación de ventana.
  6. 6. Decodificador de audio multicanal (200) de acuerdo con la reivindicación 5, en el que la regla de estimación de ventana incluye contar la cantidad de datos paramétricos presentados para una porción de señal de la señal de mezcla descendente y comparar la cantidad contada de datos paramétricos con una cantidad nominal de datos paramétricos.
  7. 7. Decodificador de audio multicanal (200) de acuerdo con la reivindicación 1, que es operativo para procesar los datos paramétricos que comprenden uno o más parámetros de audio espaciales elegidos de la siguiente lista de parámetros de audio espaciales:
    ICC (correlación inter-canal)
    CLD (diferencia de nivel de canal)
    CPC (coeficiente de predicción de canal).
  8. 8. Decodificador de audio multicanal (200) de acuerdo con la reivindicación 1, que comprende además un decorrelacionador para derivar una señal decorrelacionada a partir de la señal intermedia (210) usando un filtro de decorrelación.
  9. 9. Decodificador de audio multicanal (200) de acuerdo con la reivindicación 1 que comprende además un mezclador ascendente para calcular una reconstrucción de la señal multicanal basándose en la señal intermedia (210),
    usar una primera regla de mezcla ascendente para calcular una primera porción de la reconstrucción de la señal multicanal correspondiente a la primera porción de la señal multicanal, en el que la primera regla de mezcla ascendente depende de los primeros datos paramétricos (206); y
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    usar una segunda regla de mezcla ascendente para calcular una segunda porción de la reconstrucción de la señal multicanal, no usando la segunda regla de mezcla ascendente ningún dato paramétrico o los segundos datos paramétricos (208).
  10. 10. Codificador multicanal (100) para generar una representación paramétrica (112) que describe las propiedades espaciales de una señal de audio multicanal (106), comprendiendo el codificador multicanal (100):
    un generador de parámetros (102) para generar un conjunto combinado de parámetros espaciales para una primera porción (108) y para una segunda porción (108) de la señal multicanal;
    un mezclador descendente para derivar una señal de mezcla descendente a partir de la señal multicanal usando una regla de mezcla descendente que depende del conjunto combinado de parámetros espaciales y de una manera compatible con envolvente matricial; y
    una interfaz de salida (104) para generar la representación paramétrica (112) y para emitir la señal de mezcla descendente;
    en el que el generador de parámetros (102) o la interfaz de salida (104) se adapta para generar la representación paramétrica (112) de manera que la representación paramétrica (112) incluye primeros datos paramétricos (206) para la primera porción (108) de la señal multicanal y en el que para la segunda porción (110) de la señal multicanal (106) no se incluyen datos paramétricos o segundos datos paramétricos en la representación paramétrica (112), requiriendo los segundos datos paramétricos (208) menos unidades de información que los primeros datos paramétricos (206) cuando se describe una porción idéntica de la señal multicanal, y en el que la primera porción y la segunda porción son una porción de tiempo o una porción de frecuencia.
  11. 11. Método para procesar una señal de audio de mezcla descendente (204) derivada de una manera compatible con envolvente matricial y para procesar primeros datos paramétricos (206) que describen una primera porción de una señal multicanal, en el que para una segunda porción de la señal multicanal no se procesan datos paramétricos o segundos datos paramétricos (208), requiriendo los segundos datos paramétricos (208) menos unidades de información que los primeros datos paramétricos (206) cuando se describe una porción idéntica de la señal multicanal, comprendiendo el método:
    derivar una señal intermedia (210) a partir de la señal de mezcla descendente usando una primera regla de derivación que depende de los primeros datos paramétricos (206) y comprender un primer conjunto de elementos de matriz de una matriz de predecorrelación (M1) o una matriz de mezcla (M2) para derivar una primera porción de la señal intermedia (210), correspondiendo la primera porción de la señal intermedia a la primera porción de la señal de audio multicanal; y
    derivar una segunda porción de la señal intermedia usando una segunda regla de derivación, usando la segunda regla de derivación los segundos datos paramétricos (208) o ningún dato paramétrico y comprendiendo un segundo conjunto de elementos de matriz de la matriz de predecorrelación (M1) y la matriz de mezcla (M2), en el que el procesador (202) es operativo para calcular la segunda regla de derivación a partir de la información en la señal de audio de mezcla descendente (204) o a partir de los segundos datos paramétricos (208), en el que la primera porción y la segunda porción son una porción de tiempo o una porción de frecuencia.
  12. 12. Método para generar una representación paramétrica (112) que describe propiedades espaciales para una señal de audio multicanal (106), que comprende:
    generar un conjunto combinado de parámetros espaciales para una primera porción (108) y para una segunda porción (108) de la señal multicanal;
    derivar una señal de mezcla descendente a partir de la señal multicanal usando una regla de mezcla descendente que depende del conjunto combinado de parámetros espaciales y de una manera compatible con envolvente matricial; y
    generar la representación paramétrica (112) y emitir la señal de mezcla descendente; en el que la representación paramétrica (112) se genera de manera que la representación paramétrica (112) incluye primeros datos paramétricos (206) para la primera porción (108) de la señal multicanal y en el que para la segunda porción (110) de la señal multicanal (106) no se incluyen datos paramétricos o segundos datos paramétricos en la representación paramétrica (112), requiriendo los segundos datos paramétricos (208) menos unidades de información que los primeros datos paramétricos (206) cuando se describe una porción idéntica de la señal multicanal
    en el que la primera porción y la segunda porción son una porción de tiempo o una porción de frecuencia.
  13. 13. Programa informático que tiene un código de programa para realizar, cuando se ejecuta en un ordenador, un método de la reivindicación 11 o 12.
ES06743182.5T 2005-07-19 2006-06-21 Concepto para puentear el espacio entre codificación parámetrica de audio multicanal y codificación multicanal envolvente matricial Active ES2690278T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US323965 1994-10-17
US70100105P 2005-07-19 2005-07-19
US701001P 2005-07-19
US11/323,965 US20070055510A1 (en) 2005-07-19 2005-12-29 Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
PCT/EP2006/005971 WO2007009548A1 (en) 2005-07-19 2006-06-21 Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding

Publications (1)

Publication Number Publication Date
ES2690278T3 true ES2690278T3 (es) 2018-11-20

Family

ID=36873210

Family Applications (2)

Application Number Title Priority Date Filing Date
ES06743182.5T Active ES2690278T3 (es) 2005-07-19 2006-06-21 Concepto para puentear el espacio entre codificación parámetrica de audio multicanal y codificación multicanal envolvente matricial
ES18180076T Active ES2952871T3 (es) 2005-07-19 2006-06-21 Concepto para puentear el espacio entre codificación parámetrica de audio multicanal y codificación multicanal envolvente matricial

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES18180076T Active ES2952871T3 (es) 2005-07-19 2006-06-21 Concepto para puentear el espacio entre codificación parámetrica de audio multicanal y codificación multicanal envolvente matricial

Country Status (21)

Country Link
US (2) US20070055510A1 (es)
EP (6) EP4235440A3 (es)
JP (1) JP5265358B2 (es)
KR (1) KR100946688B1 (es)
CN (1) CN101223578B (es)
AU (1) AU2006272127B2 (es)
BR (1) BRPI0616019B1 (es)
CA (1) CA2614384C (es)
DK (1) DK3404656T3 (es)
ES (2) ES2690278T3 (es)
FI (1) FI3404656T3 (es)
HU (1) HUE064455T2 (es)
IL (1) IL188425A0 (es)
MX (1) MX2008000828A (es)
MY (1) MY149198A (es)
NO (1) NO342863B1 (es)
PL (1) PL1908056T3 (es)
PT (2) PT3404656T (es)
RU (1) RU2382418C2 (es)
TW (1) TWI339028B (es)
WO (1) WO2007009548A1 (es)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
US8036904B2 (en) * 2005-03-30 2011-10-11 Koninklijke Philips Electronics N.V. Audio encoder and method for scalable multi-channel audio coding, and an audio decoder and method for decoding said scalable multi-channel audio coding
WO2007010451A1 (en) * 2005-07-19 2007-01-25 Koninklijke Philips Electronics N.V. Generation of multi-channel audio signals
EP1938662B1 (en) * 2005-08-30 2016-09-28 LG Electronics Inc. Method, apparatus, computer-readable medium for decoding an audio signal
JP5108772B2 (ja) * 2005-09-14 2012-12-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
JP4976304B2 (ja) * 2005-10-07 2012-07-18 パナソニック株式会社 音響信号処理装置、音響信号処理方法およびプログラム
KR101218776B1 (ko) 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
KR100773560B1 (ko) * 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
KR20080071971A (ko) * 2006-03-30 2008-08-05 엘지전자 주식회사 미디어 신호 처리 방법 및 장치
US7873424B1 (en) * 2006-04-13 2011-01-18 Honda Motor Co., Ltd. System and method for optimizing digital audio playback
EP2437257B1 (en) * 2006-10-16 2018-01-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Saoc to mpeg surround transcoding
PT2372701E (pt) * 2006-10-16 2014-03-20 Dolby Int Ab Codificação aprimorada e representação de parâmetros de codificação de objeto de downmix multicanal
JP5209637B2 (ja) * 2006-12-07 2013-06-12 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
JP5355387B2 (ja) * 2007-03-30 2013-11-27 パナソニック株式会社 符号化装置および符号化方法
KR101464977B1 (ko) * 2007-10-01 2014-11-25 삼성전자주식회사 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
JP4992979B2 (ja) * 2007-11-06 2012-08-08 富士通株式会社 多地点間音声通話装置
EP2212883B1 (en) * 2007-11-27 2012-06-06 Nokia Corporation An encoder
EP2232485A4 (en) * 2008-01-01 2012-09-26 Lg Electronics Inc METHOD AND APPARATUS FOR SIGNAL PROCESSING
JP5202090B2 (ja) * 2008-05-07 2013-06-05 アルパイン株式会社 サラウンド生成装置
KR101414412B1 (ko) * 2008-05-09 2014-07-01 노키아 코포레이션 오디오 신호의 인코딩 장치, 오디오 신호의 디코딩 장치, 오디오 신호의 인코딩 방법, 스케일러블 인코딩 오디오 신호의 디코딩 방법, 인코더, 디코더, 전자기기 및 컴퓨터 판독가능한 기록 매체
ES2564400T3 (es) * 2008-07-11 2016-03-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y descodificador de audio para codificar y descodificar muestras de audio
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
US8965000B2 (en) 2008-12-19 2015-02-24 Dolby International Ab Method and apparatus for applying reverb to a multi-channel audio signal using spatial cue parameters
EP2214161A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal
EP2394268B1 (en) * 2009-04-08 2014-01-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing
TWI444989B (zh) 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
JP5604933B2 (ja) * 2010-03-30 2014-10-15 富士通株式会社 ダウンミクス装置およびダウンミクス方法
JP5533502B2 (ja) * 2010-09-28 2014-06-25 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
CN102802112B (zh) * 2011-05-24 2014-08-13 鸿富锦精密工业(深圳)有限公司 具有音频文件格式转换功能的电子装置
US9183842B2 (en) * 2011-11-08 2015-11-10 Vixs Systems Inc. Transcoder with dynamic audio channel changing
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
JP6158214B2 (ja) * 2012-11-15 2017-07-05 株式会社Nttドコモ 音声符号化装置、音声符号化方法、音声符号化プログラム、音声復号装置、音声復号方法及び音声復号プログラム
WO2014108738A1 (en) * 2013-01-08 2014-07-17 Nokia Corporation Audio signal multi-channel parameter encoder
ES2725358T3 (es) * 2013-01-29 2019-09-23 Fraunhofer Ges Forschung Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta
CN116665683A (zh) 2013-02-21 2023-08-29 杜比国际公司 用于参数化多声道编码的方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
ES2965423T3 (es) 2013-05-24 2024-04-15 Dolby Int Ab Codificador de audio
EP3005351A4 (en) * 2013-05-28 2017-02-01 Nokia Technologies OY Audio signal encoder
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
EP4297026A3 (en) 2013-09-12 2024-03-06 Dolby International AB Method for decoding and decoder.
EP3095117B1 (en) 2014-01-13 2018-08-22 Nokia Technologies Oy Multi-channel audio signal classifier
WO2015173422A1 (de) * 2014-05-15 2015-11-19 Stormingswiss Sàrl Verfahren und vorrichtung zur residualfreien erzeugung eines upmix aus einem downmix
CN110895943B (zh) * 2014-07-01 2023-10-20 韩国电子通信研究院 处理多信道音频信号的方法和装置
CN117238300A (zh) 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
DE102016214923B4 (de) 2016-08-11 2023-08-17 Continental Reifen Deutschland Gmbh Schwefelvernetzbare Kautschukmischung und deren Verwendung
WO2019076739A1 (en) * 2017-10-16 2019-04-25 Sony Europe Limited AUDIO PROCESSING
RU2749349C1 (ru) * 2018-02-01 2021-06-09 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер аудиосцены, декодер аудиосцены и соответствующие способы, использующие пространственный анализ с гибридным кодером/декодером
MX2021015314A (es) * 2019-06-14 2022-02-03 Fraunhofer Ges Forschung Codificacion y decodificacion de parametros.

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4799260A (en) * 1985-03-07 1989-01-17 Dolby Laboratories Licensing Corporation Variable matrix decoder
KR960012475B1 (ko) * 1994-01-18 1996-09-20 대우전자 주식회사 디지탈 오디오 부호화장치의 채널별 비트 할당 장치
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
DE19900961A1 (de) 1999-01-13 2000-07-20 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Wiedergabe von Mehrkanaltonsignalen
TW510143B (en) * 1999-12-03 2002-11-11 Dolby Lab Licensing Corp Method for deriving at least three audio signals from two input audio signals
JP2001339311A (ja) * 2000-05-26 2001-12-07 Yamaha Corp オーディオ信号圧縮回路および伸長回路
PT1362499E (pt) * 2000-08-31 2012-04-18 Dolby Lab Licensing Corp Processo para dispositivo para descodificação matricial áudio
JP2002311994A (ja) * 2001-04-18 2002-10-25 Matsushita Electric Ind Co Ltd ステレオオーディオ信号符号化方法及び装置
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
CN1647156B (zh) 2002-04-22 2010-05-26 皇家飞利浦电子股份有限公司 参数编码方法、参数编码器、用于提供音频信号的设备、解码方法、解码器、用于提供解码后的多声道音频信号的设备
US7447629B2 (en) 2002-07-12 2008-11-04 Koninklijke Philips Electronics N.V. Audio coding
WO2004008806A1 (en) * 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
JP2004252068A (ja) * 2003-02-19 2004-09-09 Matsushita Electric Ind Co Ltd デジタルオーディオ信号の符号化装置及び方法
CN1765153A (zh) * 2003-03-24 2006-04-26 皇家飞利浦电子股份有限公司 表示多信道信号的主和副信号的编码
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
EP1749296B1 (en) * 2004-05-28 2010-07-14 Nokia Corporation Multichannel audio extension
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
WO2007004831A1 (en) * 2005-06-30 2007-01-11 Lg Electronics Inc. Method and apparatus for encoding and decoding an audio signal

Also Published As

Publication number Publication date
BRPI0616019A2 (pt) 2011-06-07
JP2009501948A (ja) 2009-01-22
BRPI0616019B1 (pt) 2019-11-19
EP1908056B1 (en) 2018-08-01
IL188425A0 (en) 2008-11-03
JP5265358B2 (ja) 2013-08-14
US20070019813A1 (en) 2007-01-25
AU2006272127B2 (en) 2010-02-04
CN101223578A (zh) 2008-07-16
RU2382418C2 (ru) 2010-02-20
MX2008000828A (es) 2008-03-19
EP3404656A1 (en) 2018-11-21
NO342863B1 (no) 2018-08-20
EP4307125A2 (en) 2024-01-17
EP1908056A1 (en) 2008-04-09
PT3404656T (pt) 2023-10-09
US8180061B2 (en) 2012-05-15
HUE064455T2 (hu) 2024-03-28
ES2952871T3 (es) 2023-11-06
EP4307126A3 (en) 2024-03-27
MY149198A (en) 2013-07-31
EP4307124A3 (en) 2024-03-27
CA2614384A1 (en) 2007-01-25
KR20080032146A (ko) 2008-04-14
FI3404656T3 (fi) 2023-09-25
EP4307125A3 (en) 2024-03-27
NO20080850L (no) 2008-04-17
EP4235440A3 (en) 2023-10-25
RU2008106225A (ru) 2009-08-27
WO2007009548A1 (en) 2007-01-25
US20070055510A1 (en) 2007-03-08
TW200723712A (en) 2007-06-16
EP4307124A2 (en) 2024-01-17
KR100946688B1 (ko) 2010-03-12
EP4307126A2 (en) 2024-01-17
AU2006272127A1 (en) 2007-01-25
DK3404656T3 (da) 2023-09-25
EP3404656B1 (en) 2023-06-28
CN101223578B (zh) 2011-12-14
EP4235440A2 (en) 2023-08-30
PT1908056T (pt) 2018-11-07
PL1908056T3 (pl) 2019-01-31
TWI339028B (en) 2011-03-11
CA2614384C (en) 2012-07-24

Similar Documents

Publication Publication Date Title
ES2690278T3 (es) Concepto para puentear el espacio entre codificación parámetrica de audio multicanal y codificación multicanal envolvente matricial
ES2913849T3 (es) Concepto para codificación y decodificación de audio para canales de audio y objetos de audio
ES2901109T3 (es) Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
ES2511390T3 (es) Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor de fase
ES2398573T3 (es) Número reducido de decodificación de canales
ES2650544T3 (es) Codificador de audio, decodificador de audio, procedimientos y programa informático que utiliza señales residuales codificadas conjuntamente
ES2362920T3 (es) Método mejorado para la conformación de señales en reconstrucción de audio multicanal.
ES2314706T3 (es) Metodo y dispositivo para generar señal multicanal o conjunto de datos de parametros.
JP4589962B2 (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
ES2946760T3 (es) Descodificar corrientes de bits de audio con metadatos de replicación potenciada de banda espectral en al menos un elemento de relleno
BRPI0612218A2 (pt) codificação de áudio residual adaptativa
BRPI0515623B1 (pt) Dispositivo e método para a geração de um sinal multicanais codificado e dispositivo e método para a decodificação de um sinal multicanais codificado
ES2746934T3 (es) Relleno de ruido en codificación de audio multicanal
ES2619117T3 (es) Codificador y descodificador de audio
ES2654792T3 (es) Procedimiento y decodificador para codificación de objeto de audio espacial de multi-instancias que emplea un concepto paramétrico para casos de mezcla descendente/mezcla ascendente de multicanal
ES2624668T3 (es) Codificación y descodificación de objetos de audio
ES2948839T3 (es) Integración retrocompatible de técnicas de reconstrucción de alta frecuencia para señales de audio
BR112016001141B1 (pt) Codificador de áudio, decodificador de áudio e métodos que usam sinais residuais codificados em conjunto