ES2772851T3 - Mezcla de matriz basada en multipletes para audio de múltiples canales de alta cantidad de canales - Google Patents

Mezcla de matriz basada en multipletes para audio de múltiples canales de alta cantidad de canales Download PDF

Info

Publication number
ES2772851T3
ES2772851T3 ES18197144T ES18197144T ES2772851T3 ES 2772851 T3 ES2772851 T3 ES 2772851T3 ES 18197144 T ES18197144 T ES 18197144T ES 18197144 T ES18197144 T ES 18197144T ES 2772851 T3 ES2772851 T3 ES 2772851T3
Authority
ES
Spain
Prior art keywords
channel
channels
surviving
audio
mix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18197144T
Other languages
English (en)
Inventor
Zoran Fejzo
Jeffrey Thompson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS Inc
Original Assignee
DTS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/447,516 external-priority patent/US9338573B2/en
Application filed by DTS Inc filed Critical DTS Inc
Application granted granted Critical
Publication of ES2772851T3 publication Critical patent/ES2772851T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)

Abstract

Un método realizado por un dispositivo informático para la mezcla descendente en una matriz de una señal de audio que tiene N canales, que comprende: seleccionar cuáles de los N canales son canales supervivientes y cuáles son canales no supervivientes de tal modo que los canales supervivientes totalicen M canales, donde N y M son números enteros positivos distintos de cero, M es igual o mayor de cuatro y N es mayor que M; mezclar cada uno de los canales no supervivientes en múltiples de los canales supervivientes utilizando el dispositivo informático y las leyes de panoramización múltiple para obtener pesos panorámicos, comprendiendo la mezcla descendente, además: mezclar algunos canales no supervivientes en dobletes de canales supervivientes utilizando una ley de panoramización de doblete; mezclar algunos canales no sobrevivientes en tríos de canales supervivientes usando una ley de panoramización de tripletes; mezclar algunos canales no sobrevivientes en cuadruplete de canales supervivientes utilizando una ley de panoramización de cuadruplete; y codificar y multiplexar los dobletes, tripletes y cuadrupletes del canal superviviente en una secuencia de bits que tiene M canales y transmite el flujo de bits para representar en un entorno de reproducción.

Description

DESCRIPCIÓN
Mezcla de matriz basada en multipletes para audio de múltiples canales de alta cantidad de canales
Campo de la invención
Esta solicitud reivindica el beneficio de la Solicitud de Patente de Estados Unidos 14/555.324, presentada el 26 de noviembre de 2014, titulada “MULTIPLET-BASED MATRIX MIXING FOR HIGH-CHANNEL COUNT MULTICHANNEL AUDIO”, que es una no provisional de la Solicitud de Patente Provisional de Estados Unidos con Número de Serie 61/909.841 presentada el 27 de noviembre 2013, titulada “MULTIPLET-BASED MATRIX MIXING FOR HIGH-CHANNEL COUNT MULTICHANNEL AUDIO”, y la Solicitud de Patente de Estados Unidos con Número de Serie 14/447.516, presentada el 30 de julio de 2014, titulada “MATRIX DECODER WITH CONSTANT- POWER PAIRWISE PANNING".
Antecedentes
Muchos sistemas de reproducción de audio pueden grabar, transmitir y reproducir audio de múltiples canales síncrono, en ocasiones denominado como “sonido envolvente”. Aunque el audio de entretenimiento comenzó con sistemas monofónicos simplistas, pronto se desarrolló a dos canales (estéreo) y formatos de cantidad de canales superior (sonido envolvente) en un esfuerzo para capturar una imagen espacial convincente y sentido de inmersión del oyente. El sonido envolvente es una técnica para mejorar la reproducción de una señal de audio usando más de dos canales de audio. Se entrega contenido a través de múltiples canales de audio discretos y se reproduce usando una serie de pantallas de altavoz (o altavoces). Los canales de audio adicionales, o “canales de envolvente” proporcionan a un oyente con una experiencia de escucha inmersiva. La reproducción con una pluralidad de altoparlantes usando posicionamiento de fuente de sonido vertical, por ejemplo, se desvela en VILlE PULKKI: “Virtual sound source positionin using vector based amplitude panning”, JOURNAL OF THE AUDIO ENGINEERING SOCIETY, vol. 45, n° 6,1 de junio de 1997, páginas 456-466.
Los sistemas de sonido envolventes normalmente tienen altavoces situados alrededor del oyente para proporcionar al oyente un sentido de localización y envolvente del sonido. Muchos sistemas de sonido envolvente que tienen únicamente unos pocos canales (tales como un formato 5.1) tienen altavoces situados en localizaciones específicas en un arco de 360 grados alrededor del oyente. Estos altavoces también están dispuestos de manera que todos los altavoces están en el mismo plano entre sí y los oídos del oyente. Muchos sistemas de sonido envolvente de cantidad de canales superior (tales como 7.1, 11.1, y así sucesivamente) también incluyen altavoces de altura o elevación que están situados por encima del plano de los oídos del oyente para proporcionar al contenido de audio una sensación de altura. A menudo estas configuraciones de sonido envolvente incluyen un canal de efectos de baja frecuencia (LFE) discreto que proporciona audio de graves de baja frecuencia adicional para complementar el audio de graves en los otros canales de audio principales. Puesto que este canal de LFE requiere únicamente una porción del ancho de banda de los otros canales de audio, se designa como el canal “.X”, donde X es cualquier número entero positivo incluyendo cero (tal como en sonido envolvente 5.1 o 7.1).
De manera ideal el audio de sonido envolvente se mezcla en canales discretos y estos canales se mantienen discretos a través de la reproducción al oyente. En realidad, sin embargo, las limitaciones de almacenamiento y transmisión dictan que el tamaño de fichero del audio de sonido envolvente se reduce para minimizar espacio de almacenamiento y ancho de banda de transmisión. Además, el contenido de audio de dos canales es normalmente compatible con una mayor diversidad de sistemas de difusión y reproducción en comparación con contenido de audio que tiene más de dos canales.
La matrización se desarrolló para tratar estas necesidades. Matrización implica “mezclar de manera descendente” una señal original que tiene más de dos canales de audio discretos en una señal de audio de dos canales. Los canales adicionales sobre los dos canales se mezclan de manera descendente de acuerdo con un proceso predeterminado para generar un canal de mezcla descendente de dos canales que incluye información desde todos los canales de audio. Los canales de audio adicionales pueden extraerse y sintetizarse más tarde a partir de la mezcla descendente de dos canales usando un proceso de “mezcla ascendente” de manera que la mezcla del canal original puede recuperarse hasta algún nivel de aproximación. La mezcla ascendente recibe la señal de audio de dos canales como entrada y genera un número mayor de canales para reproducción. Esta reproducción es una aproximación aceptable de los canales de audio discretos de la señal original.
Varias técnicas de mezcla ascendente usan panorámica de potencia constante. El concepto de “panorámica” se deriva de las imágenes en movimiento y específicamente la palabra “panorama”. Panorama significa tener una vista visual completa de un área dada en cada dirección. En el mundo del audio, el audio puede pasarse a panorámica en el campo de estéreo de modo que el audio se percibe como que está situado en espacio físico de manera que todos los sonidos en una actuación se escuchan por un oyente en su localización y dimensión apropiadas. Para grabaciones musicales, una práctica común es colocar los instrumentos musicales donde se localizarían físicamente en un escenario real. Por ejemplo, los instrumentos de escenario izquierdo se pasan a panorámica a la izquierda y los instrumentos de escenario derecho se pasan a panorámica a la derecha. Esta idea busca replicar una actuación de la vida real para el oyente durante reproducción.
El paso a panorámica de potencia constante mantiene la potencia de señal constante a través de los canales de audio a medida que la señal de audio de entrada se distribuye entre ellos. Aunque la panorámica de potencia constante está extendida, las técnicas de mezcla descendente y mezcla ascendente actuales luchan para preservar y recuperar el comportamiento de panorámica y localización precisas presentes en una mezcla original. Además, algunas técnicas son propensas a artefactos, y todas tienen capacidad limitada para separar señales independientes que se solapan en el tiempo y frecuencia pero que se originan desde diferentes direcciones espaciales.
Por ejemplo, algunas técnicas de mezcla ascendente conocidas usan amplificadores controlados por tensión para normalizar ambos canales de entrada a aproximadamente el mismo nivel. Estas dos señales a continuación se combinan de una manera ad-hoc para producir los canales de salida. Debido a este enfoque ad-hoc, sin embargo, la salida final tiene dificultad de conseguir comportamientos de panorámica deseados e incluye problemas con diafonía y en el mejor de los casos aproxima audio de sonido envolvente discreto.
Otros tipos de técnicas de mezcla ascendente son precisas únicamente en unas pocas localizaciones de panorámica pero son imprecisas lejos de estas localizaciones. A modo de ejemplo, algunas técnicas de mezcla ascendente definen un número limitado de localizaciones de panorámica donde la mezcla ascendente da como resultado comportamiento preciso y predecible. Se usa análisis de vector de dominancia para interpolar entre un número limitado de conjuntos predefinidos de coeficientes de de-matrización en los puntos de localización de panorámica precisos. Cualquier localización de panorámica que caiga entre los puntos usa interpolación para hallar los valores de coeficiente de de-matrización. Debido a esta interpolación, las localizaciones de panorámica que caen entre los puntos precisos pueden ser imprecisas y afectar negativamente la calidad de audio.
Sumario
La invención proporciona un método realizado por un dispositivo informático para mezclar de manera descendente una señal de audio que tiene N canales con las características de la reivindicación 1 y un método realizado por un dispositivo informático para mezclar de manera ascendente la matriz de una señal de audio que tiene M canales con las características de la reivindicación 4. Las realizaciones de la invención se identifican en las reivindicaciones dependientes.
Las realizaciones del códec de matrización espacial basado en multipletes y el método reducen cantidades de canales (y por lo tanto tasas de bits) de alta cantidad de canales (siete o más canales) de audio de múltiples canales. Además, las realizaciones del códec y método optimizan calidad de audio posibilitando compensaciones entre precisión espacial y calidad de audio básica, y convierten formatos de señal de audio para reproducir configuraciones del entorno. Esto se consigue en parte determinando una tasa de bits objetivo y el número de canales que soportará la tasa de bits (o canales supervivientes). El resto de los canales (los canales no supervivientes) se mezclan de manera descendente en multipletes de los canales supervivientes. Esto podría ser un par (o doblete) de canales, un triplete de canales, un cuadruplete de canales, o cualquier multiplete de canales de orden superior.
Por ejemplo, un quinto canal no superviviente puede mezclarse de manera descendente en otros cuatro canales supervivientes. Durante la mezcla ascendente el quinto canal se extrae desde los otros cuatro canales y se representa en un entorno de reproducción. Estos cuatro canales codificados están configurados y combinados adicionalmente en diversas formas para compatibilidad hacia atrás con los decodificadores existentes, y a continuación se comprimen usando cualquiera de compresión de tasa de bits con pérdidas o sin pérdidas. El decodificador se proporciona con los cuatro canales de audio codificados, codificados, así como los metadatos pertinentes que posibilitan decodificación apropiada de vuelta a la distribución de altavoces de origen original (tal como una distribución 11.x)
Para que el decodificador decodifique apropiadamente una señal de canal reducido, el decodificador debe estar informado acerca de las distribuciones, parámetros y coeficientes que se usaron en el proceso de codificación. Por ejemplo, si el codificador codificó una mezcla de base de 11.2 canales a una señal reducida de 7.1 canales, entonces la información que describe la distribución original, la distribución de canales reducida, los canales de mezcla descendente de contribución, y los coeficientes de mezcla descendente se transmitirán al decodificador para posibilitar la decodificación apropiada de vuelta a la distribución de cantidad de canales 11.2. Este tipo de información se proporciona en la estructura de datos del flujo de bits. Cuando se proporciona información de esta naturaleza y se usa para reconstruir la señal original, el códec está operando en modo de metadatos.
El códec y método pueden usarse también como un mezclador ascendente ciego para contenido heredado para crear una distribución de canales de salida que se adapta a la distribución de escucha del entorno de reproducción. La diferencia en el caso de uso de mezcla ascendente ciega es que el códec configura los módulos de procesamiento de señal basándose en suposiciones de distribución y señal en lugar de en un proceso de codificación conocido. Por lo tanto, el códec está operando en modo ciego cuando no tiene o usa información de metadatos explícita.
El códec y método de matrización espacial basado en multipletes descritos en el presente documento son un intento para tratar un número de problemas interrelacionados que surgen cuando se mezcla, entrega y reproduce audio de múltiples canales que tiene muchos canales, de tal manera que proporciona debidamente la compatibilidad hacia atrás y flexibilidad de técnicas de mezcla o representación. Se apreciará por los expertos en la materia que son posibles una gran cantidad de disposiciones espaciales para fuentes de sonido, micrófonos, o altavoces; y que la disposición del altavoz de propiedad del consumidor final no puede predecirse de manera perfecta al artista, ingeniero o distribuidor de audio de entretenimiento. Las realizaciones del códec y método también tratan la necesidad de conseguir un compromiso funcional y práctico entre ancho de banda de datos, cantidad de canales, y calidad que es más factible para grandes cantidades de canales.
El códec y método de matrización espacial basado en multipletes están diseñados para reducir cantidades de canales (y por lo tanto tasas de bits), optimizar la calidad de audio posibilitando compensaciones entre precisión espacial y calidad de audio básica, y convertir formatos de señal de audio para reproducir configuraciones del entorno. Por consiguiente, las realizaciones del códec y método usan una combinación de compresión de canal de matrización y discreto para crear y reproducir una mezcla de múltiples canales que tiene N canales desde una mezcla de base que tiene M canales (y canales de LFE), donde N es mayor que M y donde tanto N como M son mayores que dos. Esta técnica es especialmente ventajosa cuando N es grande, por ejemplo en el intervalo de 10 a 50 e incluye canales de altura así como canales de envolvente; y cuando se desea proporcionar una mezcla de base compatible hacia atrás tal como una mezcla de envolvente 5.1 o 7.1.
Dada una mezcla de sonido que comprende canales de base (tal como 5.1 o 7.1) y canales adicionales, la invención usa una combinación de reglas de matriz basadas en pares, tripletes y cuadrupletes para mezclar canales adicionales en los canales de base de una manera que permitirá una mezcla ascendente complementaria, pudiendo recuperar dicha mezcla ascendente los canales adicionales con claridad y definición, junto con una ilusión convincente de una fuente de sonido definida espacialmente para cada canal adicional. Se posibilita que los decodificadores heredados decodifiquen la mezcla de base, mientras que se posibilita que decodificadores más nuevos mediante las realizaciones del códec y método realicen una mezcla ascendente que separe canales adicionales (tales como canales de altura).
Debería observarse que son posibles realizaciones alternativas, y que las etapas y elementos analizados en el presente documento pueden cambiarse, añadirse o eliminarse, dependiendo de la realización particular. Estas realizaciones alternativas incluyen etapas alternativas y elementos alternativos que pueden usarse, y cambios estructurales que pueden hacerse, sin alejarse del alcance de la invención como se define por las reivindicaciones adjuntas.
Descripción de los dibujos
Haciendo referencia ahora a los dibujos en los que números de referencia similares representan partes correspondientes a través de los mismos:
La Figura 1 es un diagrama que ilustra la diferencia entre los términos y expresiones “fuente”, “forma de onda” y “objeto de audio”.
La Figura 2 es una ilustración de la diferencia entre las expresiones “mezcla de fondo”, “objetos” y “mezcla de base”.
La Figura 3 es una ilustración del concepto de una distribución de altavoces de entorno de creación de contenido que tiene L número de altavoces en el mismo plano como los oídos del oyente y P número de altavoces dispuestos alrededor de un anillo de altura que está más alto que el oído del oyente.
La Figura 4 es un diagrama de bloques que ilustra una vista global general de realizaciones del códec y método de matrización espacial basado en multipletes.
La Figura 5 es un diagrama de bloques que ilustra los detalles de realizaciones no heredadas del codificador de matrización espacial basado en multipletes mostrado en la Figura 4.
La Figura 6 es un diagrama de bloques que ilustra los detalles de realizaciones no heredadas del decodificador de matrización espacial basado en multipletes mostrado en la Figura 4.
La Figura 7 es un diagrama de bloques que ilustra los detalles de realizaciones compatibles hacia atrás del codificador de matrización espacial basado en multipletes mostrado en la Figura 4.
La Figura 8 es un diagrama de bloques que ilustra los detalles de realizaciones compatibles hacia atrás del decodificador de matrización espacial basado en multipletes mostrado en la Figura 4.
La Figura 9 es un diagrama de bloques que ilustra detalles de realizaciones a modo de ejemplo del sistema de mezcla descendente de matriz basado en multipletes mostrado en las Figuras 5 y 7.
La Figura 10 es un diagrama de bloques que ilustra detalles de realizaciones a modo de ejemplo del sistema de mezcla ascendente de matriz basado en multipletes mostrado en las Figuras 6 y 8.
La Figura 11 es un diagrama de flujo que ilustra la operación general de realizaciones del códec y método de matrización espacial basado en multipletes mostrado en la Figura 4.
La Figura 12 ilustra los pesos de panorámica como una función del ángulo de panorámica (6) para la ley de paso a panorámica de Sen/Cos.
La Figura 13 ilustra comportamiento de panorámica que corresponde a una representación en fase para un canal de salida central.
La Figura 14 ilustra comportamiento de panorámica que corresponde a una representación fuera de fase para el canal de salida central.
La Figura 15 ilustra comportamiento de panorámica que corresponde a una representación en fase para un canal de salida de envolvente izquierdo.
La Figura 16 ilustra dos ángulos específicos que corresponden a ecuaciones de mezcla descendente donde los canales de envolvente izquierdo y envolvente derecho se codifican y decodifican de manera discreta.
La Figura 17 ilustra comportamiento de panorámica que corresponde a una representación en fase para un canal de salida izquierdo modificado.
La Figura 18 ilustra comportamiento de panorámica que corresponde a una representación fuera de fase para el canal de salida izquierdo modificado.
La Figura 19 es un diagrama que ilustra la panorámica de una fuente de señal, S, en un triplete de canales. La Figura 20 es un diagrama que ilustra la extracción de un cuarto canal no superviviente que se ha pasado a panorámica en un triplete.
La Figura 21 es un diagrama que ilustra la panorámica de una fuente de señal, S, en un cuadruplete de canales. La Figura 22 es un diagrama que ilustra la extracción de un quinto canal no superviviente que se ha pasado a panorámica en un cuadruplete.
La Figura 23 es una ilustración del entorno de reproducción y la técnica de representación extendida.
La Figura 24 ilustra la representación de fuentes de audio en y dentro de una esfera unitaria usando la técnica de representación extendida.
Las Figuras 25-28 son tablas de búsqueda que indican el mapeo de multipletes de matriz para cualesquiera altavoces en la distribución de entrada que no está presentes en la distribución superviviente.
Descripción detallada
En la siguiente descripción de realizaciones de un códec y método de matrización espacial basado en multipletes se hace referencia a los dibujos adjuntos. Estos dibujos muestran por medio de ejemplos específicos de ilustración ejemplos de cómo pueden ponerse en práctica las realizaciones del códec y método de matrización espacial basado en multipletes. Se entiende que pueden utilizarse otras realizaciones y pueden realizarse cambios estructurales sin alejarse del alcance de la materia objeto reivindicada.
I. Terminología
A continuación hay algunos términos básicos y conceptos usados en este documento. Obsérvese que algunos de estos términos y conceptos pueden tener significados ligeramente diferentes que el que tienen cuando se usan con otras tecnologías de audio.
Este documento analiza tanto audio basado en canales como audio basado en objetos. La música o la banda sonora tradicionalmente se crean mezclando un número de diferentes sonidos juntos en un estudio de grabación, decidiendo dónde deberían escucharse esos sonidos, y creando canales de salida a reproducirse en cada altavoz individual en un sistema de altavoces. En este audio basado en canal, los canales se pretenden para una configuración de altavoces convencional definida. Si se usa una configuración de altavoces diferente, los sonidos no pueden acabar donde se pretende que vayan o al nivel de reproducción correcto.
En audio basado en objeto, todos los sonidos diferentes se combinan con información o metadatos que describen cómo debería reproducirse el sonido, incluyendo su posición en un espacio tridimensional (3D). Entonces, depende del sistema de reproducción representar el objeto para el sistema de altavoces dado de modo que el objeto se reproduzca como se pretende y se coloque en la posición correcta. Con audio basado en objeto, la música o banda sonora debería sonar esencialmente igual en sistemas con diferentes números de altavoces o con altavoces en diferentes posiciones con relación al oyente. Esta metodología ayuda a conservar el verdadero intento del artista. La Figura 1 es un diagrama que ilustra la diferencia entre los términos y expresiones “fuente”, “forma de onda” y “objeto de audio.” Como se muestra en la Figura 1, el término “fuente” se usa para significar una única onda de sonido que representa ya sea un canal de una mezcla de fondo o el sonido de un objeto de audio. Cuando se asigna una fuente a una posición específica en un espacio en 3D, la combinación de ese sonido y su posición en el espacio en 3D se denomina una “forma de onda”. Un “objeto de audio” (u “objeto”) se crea cuando se combina una forma de onda con otros metadatos (tales como conjuntos de canales, jerarquías de presentación de audio, y así sucesivamente) y se almacena en las estructuras de datos de un flujo de bits mejorado. El “flujo de bits mejorado” contiene no únicamente datos de audio sino también datos espaciales y otros tipos de metadatos. Una “presentación de audio” es el audio que proviene finalmente de realizaciones del decodificador de matrización espacial basado en multipletes.
La frase “coeficiente de ganancia” es una cantidad mediante la cual se ajusta el nivel de una señal de audio para aumentar o reducir su volumen. El término “representación” indica un proceso para transformar un formato de distribución de audio dado a la configuración de altavoces de reproducción particular que se está usando. La representación intenta recrear el espacio acústico espacial de reproducción tan estrechamente al espacio acústico espacial original como sea posible dados los parámetros y limitaciones del sistema y entorno de reproducción.
Cuando se pierde cualquiera de los altavoces de envolvente o elevados de la distribución de altavoces en el entorno de reproducción, entonces los objetos de audio que se pretendían para esos altavoces faltantes pueden remapearse a otros altavoces que están físicamente presentes en el entorno de reproducción. Para posibilitar esta funcionalidad, pueden definirse “altavoces virtuales” que se usan en el entorno de reproducción pero que no están directamente asociados con un canal de salida. En su lugar, su señal se vuelve a encaminar a canales de altavoces físicos usando un mapa de mezcla descendente.
La Figura 2 es una ilustración de la diferencia entre los términos y expresiones “mezcla de fondo”, “objetos”, y “mezcla de base”. Tanto la “mezcla de fondo” como la “mezcla de base” hacen referencia a mezclas de audio basadas en canal (tales como 5.1, 7.1, 11. 1, y así sucesivamente) que pueden estar contenidas en un flujo de bits mejorado ya sea como canales o como objetos basados en canales. La diferencia entre los dos términos es que una mezcla de fondo no contiene ninguno de los objetos de audio contenidos en el flujo de bits. Una mezcla de base contiene la presentación de audio completa presentada en forma basada en canal para una distribución de altavoces convencional (tal como 5.1, 7.1, y así sucesivamente). En la mezcla de base, cualesquiera objetos que están presentes se mezclan en la mezcla de canal. Esto se ilustra en la Figura 2, que muestra que la mezcla de base incluye tanto la mezcla de fondo y cualesquiera objetos de audio.
Como se usa en este documento, el término “multiplete” significa un agrupamiento de una pluralidad de canales que tienen una señal que se ha pasado a panorámica en los mismos. Por ejemplo, un tipo de multiplete es un “doblete”, mediante el cual una señal se pasa a panorámica en dos canales. De manera similar, otro tipo de multiplete es un “triplete”, mediante el cual una señal se pasa a panorámica en tres canales. Cuando en una señal se pasa a panorámica en cuatro canales, el multiplete resultante se denomina un “cuadruplete”. El multiplete puede incluir una agrupación de dos o más canales incluyendo cinco canales, seis canales, siete canales y así sucesivamente, en los que se ha pasado a panorámica a una señal. Para fines pedagógicos este documento únicamente analiza los casos de doblete, triplete y doblete, triplete, y cuadruplete. Sin embargo, debería observarse que los principios pensados en el presente documento pueden ampliarse a multipletes que contienen cinco o más canales.
Las realizaciones del códec y método de matrización espacial basado en multipletes, o aspectos de las mismas, se usan en un sistema para entrega y grabación de audio de múltiples canales, especialmente cuando ha de transmitirse o grabarse grandes números de canales. Como se usa en este documento, audio de múltiples canales de “alta cantidad de canales” significa que hay siete o más canales de audio. Por ejemplo, en un sistema de este tipo se graba una multitud de canales y se supone que están configurados en una geometría de reproducción conocida que tiene L canales dispuestos en el nivel del oído alrededor del oyente, P canales dispuestos alrededor de un anillo de altura dispuesto a un nivel más alto del oído, y opcionalmente un canal central en o cerca del zenit por encima del oyente (donde L y P son números enteros positivos mayores que 1).
La Figura 3 es una ilustración del concepto de una distribución 300 de altavoces (o canal) de entorno de creación de contenido que tiene L número de altavoces en el mismo plano que los oídos del oyente y P número de altavoces dispuestos alrededor de un anillo de altura que está más alto que el oído del oyente. Como se muestra en la Figura 3, el oyente 100 está escuchando contenido que se mezcla en la distribución de altavoces de entorno de creación de contenido 300. La distribución de altavoces de creación de contenido 300 es una distribución 11.1 con un altavoz de techo opcional 305. Un plano L 310 que contiene el número L de altavoces en el mismo plano que los oídos del oyente incluye un altavoz izquierdo 315, un altavoz central 320, un altavoz derecho 325, un altavoz de envolvente izquierdo 330, y un altavoz de envolvente derecho 335. La distribución 11.1 mostrada también incluye un altavoz de efectos de baja frecuencia (LFE o “subwoofer”) 340. El plano L 310 también incluye un altavoz izquierdo tarsero de envolvente 345 y un altavoz derecho trasero de envolvente 350. Cada uno de los oídos del oyente 355 también está localizado en el plano L 310.
El plano P (o altura) 360 contiene un altavoz de altura delantero izquierdo 365 y un altavoz de altura delantero derecho 370. El plano P 360 también incluye un altavoz de altura de envolvente izquierdo 375 y un altavoz de altura de envolvente derecho 380. El altavoz de techo opcional 305 se muestra localizado en el plano P 360. Como alternativa, el altavoz de techo opcional 305 puede localizarse por encima del plano P 360 en un zénit del entorno de creación de contenido. El plano L 310 y el plano P 360 están separados por una distancia d.
Aunque se muestra en la Figura 3 una distribución de altavoces de entorno de creación de contenido 11.1 300 (junto con un altavoz de techo opcional 305), las realizaciones del códec y método de matrización espacial basado en multipletes pueden generalizarse de manera que el contenido podría mezclarse en entornos de alta cantidad de canales que contienen siete o más canales de audio. Además, debería observarse que en la Figura 3 los altavoces en la distribución de altavoces de creación de contenido 300 y la cabeza y oídos del oyente no están a escala entre sí. En particular, la cabeza y oídos del oyente se muestran más grandes que la escala para ilustrar el concepto de que cada uno de los altavoces y los oídos del oyente están en el mismo plano horizontal que el plano L 310.
Los altavoces en el plano P 360 pueden estar dispuestos de acuerdo con diversas geometrías convencionales, y la geometría supuesta es conocida para un ingeniero de mezcla o artista/ingeniero de grabación. De acuerdo con las realizaciones del códec y método de matrización espacial basado en multipletes, la cantidad de canales (L P) se reduce por un método novedoso de mezcla de matriz a un número inferior de canales (por ejemplo, canales (L P) mapeados en L canales únicamente). Los canales de cantidad reducida se codifican y comprimen a continuación por métodos conocidos que conservan la naturaleza discreta de los canales de cantidad reducida.
En la decodificación, la operación de las realizaciones del códec y método depende de las capacidades del decodificador. En decodificadores heredados se reproducen los canales de cantidad reducida (L), que tienen los P canales mezclados en los mismos. En un decodificador más avanzado, la asociación completa de canales (L P) es recuperable mediante mezcla ascendente y se encaminan cada uno a uno correspondiente de los (L P) altavoces. De acuerdo con la invención, ambas operaciones de mezcla ascendente y mezcla descendente (matrización/dematrización) incluyen una combinación de leyes de panorámica de multipletes (tales como leyes de panorámica de pares, tripletes, y cuadrupletes) para colocar las fuentes de sonido percibidas, tras reproducción, correspondiendo estrechamente a las localizaciones supuestas pretendidas por el artista o ingeniero de grabación. La operación de matrización (reducción de distribución de canales) puede aplicarse a los canales de mezcla de fondo en: (a) una mezcla de fondo más composición de objeto del flujo de bits mejorado; (b) una composición únicamente basada en canal del flujo de bits mejorado. Además, la operación de matrización puede aplicarse a objetos estacionarios (objetos que no están moviéndose alrededor) y después de de-matrización aún consiguen suficiente separación de objeto que permitirá modificaciones de nivel independiente y representación para objetos individuales; o (c) aplicar la operación de matrización a objetos basados en canal.
II. Vista general del sistema
Las realizaciones del códec y método de matrización espacial basado en multipletes reducen audio de múltiples canales y tasas de bits de alta cantidad de canales pasando a panorámica ciertos canales en multipletes de los canales restantes. Esto sirve para optimizar calidad de audio posibilitando compensaciones entre precisión espacial y calidad de audio básica. Las realizaciones del códec y método también convierten formatos de señal de audio para reproducir configuraciones del entorno.
La Figura 4 es un diagrama de bloques que ilustra una vista global general de realizaciones del códec y método de matrización espacial basado en multipletes 400. Haciendo referencia a la Figura 4, el códec 400 incluye un codificador de matrización espacial basado en multipletes 410 y un decodificador de matrización espacial basado en multipletes 420. Inicialmente, se crea contenido de audio (tal como pistas musicales) en un entorno de creación de contenido 430. Este entorno 430 puede incluir una pluralidad de micrófonos 435 (u otros dispositivos de captura de sonido) para grabar fuentes de audio. Como alternativa, las fuentes de audio pueden ya ser una señal digital de manera que no es necesario usar un micrófono para grabar la fuente. Sea cual sea el método de creación del sonido, cada una de las fuentes de audio se mezcla en una mezcla final como la salida del entorno de creación de contenido 430.
El creador de contenido selecciona una mezcla de base N.x que representa mejor el intento espacial del creador, donde N representa el número de canales normales y x representa el número de canales de baja frecuencia.
Además, N es un entero positivo mayor de 1, y x es un número entero no negativo. Por ejemplo, en un sistema de envolvente 11.1, N=11 y x=1. Esto por supuesto se somete a un número máximo de canales, de manera que N+x<MAX, donde MAX es un entero positivo que representa el número máximo de canales permisibles.
En la Figura 4, la mezcla final es una mezcla N.x 440 de manera que cada una de las fuentes de audio se mezcla en N+x número de canales. La mezcla final N.x 440 a continuación se codifica y se mezcla de manera descendente usando el codificador de matrización espacial basado en multipletes 410. El codificador 410 está normalmente localizado en un dispositivo informático que tiene uno o más dispositivos de procesamiento. El codificador 410 codifica y mezcla de manera descendente la mezcla N.x final en una mezcla M.x 450 que tiene M canales normales y x canales de baja frecuencia, donde M es un entero positivo mayor de 1, y M es menor que N.
La mezcla descendente M.x 450 se entrega para consumo por un oyente a través de un entorno de entrega 460. Están disponibles varias opciones de entrega, incluyendo entrega por flujo continuo a través de una red 465. Como alternativa, la mezcla descendente M.x 450 puede grabarse en un medio 470 (tal como disco óptico) para consumo por el oyente. Además, hay muchas otras opciones de entrega no enumeradas en este punto que pueden usarse para entregar la mezcla descendente M.x 450.
La salida del entorno de entrega es un flujo M.x 475 que se introduce al decodificador de matrización espacial basado en multipletes 420. El decodificador 420 decodifica y mezcla de manera ascendente el flujo de M.x 475 para obtener un contenido N.x reconstruido 480. Las realizaciones del decodificador 420 están normalmente localizadas en un dispositivo informático que tiene uno o más dispositivos de procesamiento.
Las realizaciones del decodificador 420 extraen el audio de PCM desde el audio comprimido almacenado en el flujo de M.x 475. El decodificador 420 usado está basado en qué esquema de compresión de audio se usó para comprimir los datos. Pueden usarse varios tipos de esquemas de compresión de audio en el flujo de M.x, incluyendo compresión con pérdidas, codificación de baja tasa de bits y compresión sin pérdidas.
El decodificador 420 decodifica cada canal del flujo de M.x 475 y los expande en canales de salida discretos representados por la salida N.x 480. Esta salida N.x reconstruida 480 se reproduce en un entorno de reproducción 485 que incluye una distribución de altavoces (o canal) de reproducción. La distribución de altavoces de reproducción puede ser o no la misma que la de la distribución de altavoces de creación de contenido. La distribución de altavoces de reproducción mostrada en la Figura 4 es una distribución 11.2. En otras realizaciones, la distribución de altavoces de reproducción pueden ser auriculares de manera que los altavoces son meramente altavoces virtuales desde los que parece originarse el sonido en el entorno de reproducción 485. Por ejemplo, el oyente 100 puede estar escuchando la mezcla N.x reconstruida a través de auriculares. En esta situación, los altavoces no son altavoces físicos reales pero el sonido parece originarse desde diferentes localizaciones espaciales en el entorno de reproducción 485 que corresponde, por ejemplo, a una configuración de altavoces de sonido envolvente 11.2.
Realizaciones del codificador incompatibles hacia atrás
La Figura 5 es un diagrama de bloques que ilustra los detalles de realizaciones no heredadas del codificador de matrización espacial basado en multipletes 410 mostrado en la Figura 4. En estas realizaciones no heredadas, el codificador 410 no codifica el contenido de manera que se mantiene compatibilidad hacia atrás con decodificadores heredados. Además, las realizaciones del codificador 410 hacen uso de diversos tipos de metadatos que están contenidos en un flujo de bits junto con datos de audio. Como se muestra en la Figura 5, el codificador 410 incluye un sistema de mezcla de matriz basado en multipletes 500 y un módulo de empaquetamiento de compresión y flujo de bits 510. La salida del entorno de creación de contenido 430 incluye una mezcla de fondo 520 de modulación por codificación de pulsos (PCM) N.x, que contiene la información de audio basado en canales, y la información de audio basado en objeto, que incluye unos datos de PCM de objeto 530 y metadatos de objeto asociados 540. Debería observarse que en las Figuras 5-8 las flechas huecas indican datos del dominio del tiempo mientras que las flechas de línea continua indican datos espaciales. Por ejemplo, la flecha desde la mezcla de base PCM N.x 520 al sistema de mezcla de matriz basado en multipletes 500 es una flecha hueca e indica datos del dominio del tiempo. La flecha desde el entorno de creación de contenido 430 a la PCM de objeto 530 es una flecha de línea continua e indica datos espaciales.
La mezcla de base PCM N.x 520 se introduce al sistema de mezcla de matriz basado en multipletes 500. El sistema 500 procesa la mezcla de base PCM N.x 520, como se explica en detalle a continuación, y reduce la cantidad de canales de la mezcla de base PCM N.x a una mezcla de fondo de PCM M.x 550. Además, el sistema 500 emite información clasificada, que incluye unos metadatos de distribución M.x 560, que son datos acerca de la distribución espacial de la mezcla de base p Cm M.x 550. El sistema 500 también emite información acerca de la distribución de canales original y metadatos de matrización 570. La distribución de canales original es información espacial acerca de la distribución de los canales originales en el entorno de creación de contenido 430. Los metadatos de matrización contienen información acerca de los diferentes coeficientes usados durante la mezcla descendente. En particular, contiene información acerca de cómo se codificaron los canales en la mezcla descendente de modo que el decodificador conoce la manera correcta para la mezcla ascendente.
Como se muestra en la Figura 5, la PCM de objeto 530, los metadatos de objeto 540, la mezcla de base PCM M.x 550, los metadatos de distribución M.x 560, y los metadatos de distribución de canales original y matrización 570 todos se introducen al módulo de compresión y empaquetamiento de flujo de bits 510. El módulo 510 toma esta información, la comprime y la empaqueta en un flujo de bits mejorado M.x 580. El flujo de bits se denomina como mejorado puesto que además de datos de audio también contiene metadatos espaciales y de otros tipos.
Las realizaciones del sistema de mezcla de matriz basado en multipletes 500 reducen la cantidad de canales examinando tales variables como una tasa de bits disponible total, mínima tasa de bits por canal, un canal de audio discreto y así sucesivamente. Basándose en estas variables, el sistema 500 toma los N canales originales y los mezcla de manera descendente a M canales. El número M es dependiente de la tasa de datos. A modo de ejemplo, si N equivale a 22 canales originales y la tasa de bits disponible es 500 Kbits/segundo, entonces el sistema 500 puede determinar que M ha de ser 8 para conseguir la tasa de bits y codificar el contenido. Esto significa que hay únicamente suficiente ancho de banda para codificar 8 canales de audio. Estos 8 canales a continuación se codificarán y transmitirán.
El decodificador 420 tendrá conocimiento de que estos 8 canales provienen desde unos 22 canales originales, y mezclamos de manera ascendente estos 8 canales de vuelta a 22 canales. Por supuesto habrá algún nivel de fidelidad espacial perdida para conseguir la tasa de bits. Por ejemplo, suponiendo que la tasa de bits mínima dada por canal es 32 Kbits/canal. Si la tasa de bits total es 128 bits/segundo, entonces podrían codificarse 4 canales a 32 Kbits/canal. En otro ejemplo, suponiendo que la entrada al codificador 410 es una mezcla de base 11.1, la tasa de bits dada es 128 kbits/segundo, y la tasa de bits mínima por canal es 32 Kbits/segundo. Esto significa que el códec 400 y método tomarían esos 11 canales originales y los mezclarían de manera descendente a 4 canales, transmitirán los 4 canales, y en el lado de decodificación mezclarían de manera ascendente esos 4 canales de vuelta a 11 canales.
Realizaciones del decodificador incompatibles hacia atrás
El flujo de bits mejorado M.x 580 se entrega a un dispositivo de recepción que contiene el decodificador 420 para representación. La Figura 6 es un diagrama de bloques que ilustra los detalles de realizaciones no heredadas del decodificador de matrización espacial basado en multipletes mostrado en la Figura 4. En estas realizaciones no heredadas, el decodificador 420 no mantiene compatibilidad hacia atrás con anteriores tipos de flujos de bits y no puede decodificarlos. Como se muestra en la Figura 6, el decodificador 420 incluye un sistema de mezcla ascendente de matriz basado en multipletes 600, un módulo de descompresión y desempaquetamiento de flujo de bits 610, un módulo de retardo 620, un motor de representación de inclusión de objeto 630, y un módulo de mezclador descendente y remapeo de altavoces 640.
Como se muestra en la Figura 6, la entrada al decodificador 420 es el flujo de bits mejorado M.x 580. El módulo de descompresión y desempaquetamiento de flujo de bits 610 a continuación desempaqueta y descomprime el flujo de bits 580 de vuelta en señales de PCM (incluyendo la mezcla de fondo y objetos de audio) y metadatos asociados. La salida desde el módulo 610 es una mezcla de fondo de PCM M.x 645. Además, la distribución de canales original (N.x) y los metadatos de matrización 650 (incluyendo los coeficientes de matrización), la PCM de objeto 655, y los metadatos de objeto 660 se emiten desde el módulo 610.
La mezcla de base PCM M.x 645 se procesa por el sistema de mezcla ascendente de matriz basado en multipletes 600 y se mezcla de manera ascendente. El sistema de mezcla ascendente de matriz basado en multipletes 600 se analiza adicionalmente a continuación. La salida del sistema 600 es una mezcla de fondo de PCM N.x 670, que está en la misma configuración de distribución de canales (o altavoz) que la distribución original. La mezcla de base PCM N.x 670 se procesa por el módulo de mezclador descendente y remapeo de altavoces 640 para mapear la mezcla de fondo N.x 670 en la distribución de altavoces de reproducción del oyente. Por ejemplo, si N=22 y M=11, entonces los 22 canales se mezclarían de manera descendente a 11 canales por el codificador 410. El decodificador 420 a continuación tomaría los 11 anales y los mezclaría de manera ascendente de vuelta a 22 canales. Pero si el oyente tiene únicamente una distribución de altavoces de reproducción 5.1, entonces el módulo 640 mezclaría de manera descendente esos 22 canales y los remapearía a la distribución de altavoces de reproducción para reproducción por el oyente.
El módulo de mezclador descendente y remapeo de altavoz 640 es responsable de adaptar el contenido almacenado en el flujo de bits 580 a una configuración de altavoces de salida dada. Teóricamente, el audio puede formatearse para cualquier distribución de altavoces de reproducción arbitraria. La distribución de altavoces de reproducción se selecciona por el oyente o el sistema. Basándose en esta selección, el decodificador 420 selecciona los conjuntos de canales que necesitan decodificarse y determina si debe realizarse remapeo de altavoces y mezcla descendente La selección de distribución de altavoces de salida se realiza usando una llamada de Interfaz de Programación de Aplicación (API).
Cuando la distribución de pantallas de altavoz de reproducción pretendida no adapta la distribución de pantallas de altavoz de reproducción real del entorno de reproducción 485 (o espacio de escucha), la impresión global de una presentación de audio puede verse comprometida. Para optimizar la presentación de calidad de audio en un número de configuraciones de altavoces conocidas, el flujo de bits mejorado M.x puede contener coeficientes de remapeo de pantallas de altavoz.
Hay dos modos de operación para las realizaciones del mezclador módulo de descendente y remapeo de altavoz 640. En primer lugar, un “modo directo” mediante el cual el decodificador 420 configura el remapeador espacial para producir la distribución de canales originalmente codificados a través de la configuración de altavoces de salida tan cerca como sea posible. En segundo lugar, un “modo no directo” mediante el cual las realizaciones del decodificador convertirán el contenido a la configuración de canal de salida seleccionada, independientemente de la configuración de la fuente.
La PCM de objeto 655 se retarda por el módulo de retardo 620 de modo que hay algún nivel de latencia mientras se procesa la mezcla de base PCM M.x 645 por el sistema de mezcla ascendente de matriz basado en multipletes 600. La salida del módulo de retardo 620 es la PCM de objeto retarda 680. Esta PCM de objeto retardada 680 y los metadatos de objeto 660 se suman y representan por el motor de representación de inclusión de objeto 630.
El motor de representación de inclusión de objeto 630 y un motor de representación de eliminación de objeto (analizados a continuación) son los motores principales para realizar representación de audio basado en objeto en 3D. El trabajo principal de estos motores de representación es añadir o restar objetos de audio registrados a o desde una mezcla de base. Cada objeto proviene con información que dicta su posición en un espacio en 3D, incluyendo su azimut, elevación, distancia, ganancia y una bandera que dicta si el objeto debería permitirse partirse a la localización de altavoz más cercana. La representación de objeto realiza el procesamiento necesario para colocar el objeto en la posición indicada. Los motores de representación soportan tanto fuentes puntuales como extendidas. Una fuente puntual suena como si se pensara que estuviera proviniendo desde un punto específico en el espacio, mientras que las fuentes extendidas son sonidos con “anchura”, una “altura” o ambas.
Los motores de representación usan una representación de sistema de coordenadas esférico. Si una herramienta de autoría en el entorno de creación de contenido 430 representa la sala como una caja de zapatos, entonces puede realizarse la transformación de cajas concéntricas a esferas concéntricas y de vuelta dentro de una herramienta de autoría. De esta manera la colocación de fuentes en las paredes mapea la colocación de las fuentes en la esfera unitaria.
La mezcla de fondo desde el módulo de mezclador descendente y remapeo de altavoces y la salida desde el motor de representación de inclusión de objeto 630 se combinan para proporcionar una presentación de audio N.x 690. La presentación de audio N.x 690 se emite desde el decodificador 420 y se reproduce en la distribución de altavoces de reproducción (no mostrada).
Debería observarse que algunos de los módulos del decodificador 420 pueden ser opcionales. Por ejemplo, el sistema de mezcla ascendente de matriz basado en multipletes 600 no es necesario si N=M. De manera similar, el módulo de mezcla descendente y remapeo de altavoces 640 no son necesarios si N=M. y el motor de representación de inclusión de objeto 630 no es necesario si no hay objetos en el flujo de bits mejorado M.x y la señal es únicamente una señal basada en canal.
Realizaciones del codificador compatibles hacia atrás
La Figura 7 es un diagrama de bloques que ilustra los detalles de realizaciones heredadas del codificador de matrización espacial basado en multipletes 410 mostrado en la Figura 4. En estas realizaciones heredadas, el codificador 410 codifica el contenido de manera que se mantiene la compatibilidad hacia atrás con decodificadores heredados. Muchos componentes son los mismos que las realizaciones incompatibles hacia atrás. Específicamente, el sistema de mezcla de matriz basado en multipletes 500 aún mezcla de manera descendente la mezcla de base PCM N.x 520 en la mezcla de base PCM M.x 550. El codificador 410 toma la PCM de objeto 530 y los metadatos de objeto 540 y los mezcla en la mezcla de base PCM M.x 550 para crear una mezcla descendente embebida. Esta mezcla descendente embebida puede decodificarse por un decodificador heredado. En estas realizaciones compatibles hacia atrás la mezcla descendente embebida incluye tanto la mezcla de fondo M.x como los objetos para crear una mezcla descendente heredada que pueden decodificar los decodificadores heredados.
Como se muestra en la Figura 7, el codificador 410 incluye un motor de representación de inclusión de objeto 700 y un embebedor de mezcla descendente 710. Para los fines de compatibilidad hacia atrás, cualquier información de audio almacenada en objetos de audio se mezcla también en la mezcla de fondo M.x 550 para crear una mezcla de base que pueden usar los decodificadores heredados. Si el sistema de decodificador puede representar objetos, entonces los objetos deben eliminarse de la mezcla de base de modo que ya no se reproduzcan doblemente. Los objetos decodificados se representan a una mezcla de fondo apropiada específicamente para este fin y a continuación se restan de la mezcla de base.
La PCM de objeto 530 y los metadatos de objeto 540 se introducen al motor 700 y se mezclan con la mezcla de base PCM M.x 550. El resultado va al embebedor de mezcla descendente 710 que crea una mezcla descendente embebida. Esta mezcla descendente embebida, los metadatos de mezcla descendente 720, metadatos de distribución M.x 560, metadatos de distribución de canales original y matrización 570, la PCM de objeto 530, y los metadatos de objeto 540 se comprimen y empaquetan en un flujo de bits por el módulo de compresión y empaquetamiento de flujo de bits 510. La salida es un flujo de bits mejorado M.x compatible hacia atrás 580.
Realizaciones del decodificador compatibles hacia atrás
El flujo de bits mejorado M.x compatible hacia atrás 580 se entrega a un dispositivo de recepción que contiene el decodificador 420 para representación. La Figura 8 es un diagrama de bloques que ilustra los detalles de realizaciones compatibles hacia atrás del decodificador de matrización espacial basado en multipletes 420 mostrado en la Figura 4. En estas realizaciones compatibles hacia atrás, el decodificador 420 mantiene compatibilidad hacia atrás con tipos de flujos de bits anteriores para posibilitar que el decodificador 420 los decodifique.
Las realizaciones del decodificador compatible hacia atrás 420 son similares a las realizaciones no compatibles hacia atrás mostradas en la Figura 6 excepto que hay una porción de eliminación de objeto. Estas realizaciones compatibles hacia atrás tratan con problemas heredados del códec donde es deseable proporcionar un flujo de bits que los decodificadores heredados pueden aún decodificar. En estos casos, el decodificador 420 elimina los objetos desde la mezcla descendente embebida y a continuación mezcla de manera ascendente para obtener la mezcla ascendente original.
Como se muestra en la Figura 8, el módulo de descompresión y desempaquetamiento de flujo de bits 610 emite los coeficientes de distribución de canales originales y matrización 650, la PCM de objeto 655, y los metadatos de objeto 660. La salida del módulo 610 también deshace la mezcla descendente embebida 800 de la mezcla descendente embebida para obtener la mezcla de base PCM M.x 645. Esto separa básicamente los canales y los objetos entre sí. Después de codificación, la nueva distribución de canales más pequeña puede aún tener demasiados canales para almacenar en la porción del flujo de bits usado por decodificadores heredados. En estos casos, como se ha indicado anteriormente con referencia a la Figura 7, se realiza una mezcla descendente embebida adicional para asegurar que el audio desde los canales no soportados en decodificadores más antiguos se incluya en la mezcla compatible hacia atrás. Los canales adicionales presentes se mezclan de manera descendente en la mezcla compatible hacia atrás y se transmiten de manera separada. Cuando se decodifica el flujo de bits para un formato de salida de altavoz que soportará más canales que la mezcla compatible hacia atrás, el audio desde los canales adicionales se elimina de la mezcla y los canales discretos se usan en su lugar. Esta operación de deshacer la mezcla descendente embebida 800 tiene lugar antes de la mezcla ascendente.
La salida del módulo 610 también incluye metadatos de distribución M.x 810. Los metadatos de distribución M.x 810 y la PCM de objeto 655 se usan por un motor de representación de eliminación de objeto 820 para representar los objetos eliminados en la mezcla de base PCM M.x 645. La PCM de objeto 655 también se ejecuta a través del módulo de retardo 620 y en el motor de representación de inclusión de objeto 630. El motor 630 toma los metadatos de objeto 660, la PCM de objeto retardado 655 y representa los objetos y la mezcla de fondo N.x 670 en una presentación de audio N.x 690 para reproducción en la distribución de altavoces de reproducción (no mostrada). MI. Detalles de sistema
Los detalles del sistema de componentes de realizaciones del códec y método de matrización espacial basado en multipletes se analizarán ahora. Debería observarse que únicamente se detallan a continuación unas pocas de las varias maneras en las que pueden implementarse los módulos, sistemas, y códecs. Son posibles muchas variaciones a partir de las que se muestran en las Figuras 9 y 10.
La Figura 9 es un diagrama de bloques que ilustra detalles de realizaciones a modo de ejemplo del sistema de mezcla descendente de matriz basado en multipletes 500 mostrado en las Figuras 5 y 7. Como se muestra en la Figura 9, la mezcla de base PCM N.x 520 se introduce al sistema 500. El sistema incluye un módulo de separación que determina el número de canales en los que se mezclarán de manera descendente los canales de entrada y qué canales de entrada son canales supervivientes y canales no supervivientes. Los canales supervivientes son los canales que se mantienen y los canales no supervivientes son los canales de entrada que se mezclan de manera descendente en multipletes de los canales supervivientes.
El sistema 500 también incluye un mezclador descendente de matriz de coeficiente de mezcla 910. Las flechas huecas en la Figura 9 indican que la señal es una señal del dominio del tiempo. El mezclador descendente 910 toma los canales supervivientes 920 y los pasa a través sin procesamiento. Los canales no supervivientes se mezclan de manera descendente en multipletes basándose en proximidad. En particular, algunos canales no supervivientes pueden mezclarse de manera descendente en pares supervivientes (o dobletes) 930. Algunos canales no supervivientes pueden mezclarse de manera descendente en tripletes supervivientes 940 de canales supervivientes. Algunos canales no supervivientes pueden mezclarse de manera descendente en cuadrupletes supervivientes 950 de canales supervivientes. Esto puede continuar para multipletes de cualquier Y, donde Y es un entero positivo mayor de 2. Por ejemplo, si Y=8 entonces un canal no superviviente puede mezclarse de manera descendente en un octuplete superviviente de canales supervivientes. Esto se muestra en la Figura 9 por la elipse 960. Debería observarse que alguna, toda, o cualquier combinación de multipletes puede usarse para mezclar de manera descendente la mezcla de base PCM N.x 520.
La mezcla descendente M.x resultante desde el mezclador descendente 910 pasa a un módulo de normalización de sonoridad 980. El proceso de normalización se analiza en mayor detalle a continuación. La mezcla de base PCM N.x 520 se usa para normalizar la mezcla descendente M.x y la salida es una mezcla de fondo de PCM M.x 550.
La Figura 10 es un diagrama de bloques que ilustra detalles de realizaciones a modo de ejemplo del sistema de mezcla ascendente de matriz basado en multipletes 600 mostrado en las Figuras 6 y 8. En la Figura 10 las flechas gruesas representan señales del dominio del tiempo y las flechas de línea discontinua representan señales del dominio de subbanda. Como se muestra en la Figura 10, la mezcla de base PCM M.x 645 se introduce al sistema 600. La mezcla de base PCM M.x 645 se procesa por un banco de filtros de análisis sobremuestreado 1000 para obtener los diversos canales no supervivientes que se mezclaron de manera descendente a los Y-multipletes de canal superviviente. En la primera pasada, se realiza un análisis espacial en los Y-multipletes 1010 para obtener información espacial tal como el radio y el ángulo en el espacio del canal no superviviente. A continuación, el canal no superviviente se extrae desde los Y-multipletes de los canales supervivientes 1015. El primer canal recapturado, C1, se introduce a continuación a un módulo de normalización de potencia de subbanda 1020. Los canales implicados en esta pasada vuelven a pasarse a panorámica 1025.
Estas pasadas continúan a través de cada uno del Y número de multipletes, como se indica por las elipses 1030. Las pasadas a continuación continúan de manera secuencial hasta que se ha procesado cada uno de los Y-multipletes. La Figura 10 muestra que se realiza el análisis espacial en los cuadrupletes 1040 para obtener información espacial tal como el radio y el ángulo en el espacio del canal no superviviente mezclado de manera descendente a los cuadrupletes. A continuación, el canal no superviviente se extrae desde los cuadrupletes de canales supervivientes 1045. El canal extraído, C(Y-3), se introduce a continuación al módulo de normalización de potencia de subbanda 1020. Los canales implicados en esta pasada vuelven a pasarse a panorámica 1050 a continuación.
En la siguiente pasada se realiza el análisis espacial en los tripletes 1060 para obtener información espacial tal como el radio y ángulo en el espacio del canal no superviviente mezclado de manera descendente a los tripletes. A continuación, el canal no superviviente se extrae de los tripletes de canales supervivientes 1065. El canal extraído, C(Y-2), se introduce a continuación al módulo 1020. Los canales implicados en esta pasada vuelven a pasarse a panorámica 1070. De manera similar, en la última pasada se realiza el análisis espacial en los dobletes 1080 para obtener información espacial tal como el radio y ángulo en el espacio del canal no superviviente mezclado de manera descendente a los dobletes. A continuación, el canal no superviviente se extrae desde los dobletes de canales supervivientes 1085. El canal extraído, C(Y-1), se introduce a continuación al módulo 1020. Los canales implicados en esta pasada se pasan a continuación a panorámica 1090.
Cada uno de los canales se procesa a continuación por el módulo 1020 para obtener una mezcla ascendente N.x. Esta mezcla ascendente N.x se procesa por el banco de filtro de síntesis sobremuestreado 1095 para combinarlos en la mezcla de base PCM N.x 670. Como se muestra en la Figuras 6 y 8, la mezcla de base PCM N.x se introduce a continuación al módulo de mezclador descendente y remapeo de altavoces 640.
IV. Vista general operacional
Las realizaciones del códec y método de matrización espacial basado en multipletes 400 son tecnologías de codificación y decodificación espacial que reducen cantidades de canales (y por lo tanto tasas de bits), optimizan calidad de audio posibilitando compensaciones entre precisión espacial y calidad de audio básica, y convierten formatos de señal de audio para reproducir configuraciones del entorno.
Las realizaciones del codificador 410 y decodificador 420 tienen dos casos de uso primarios. Un primer caso de uso es el caso de uso de metadatos donde las realizaciones del códec y método de matrización espacial basado en multipletes 400 se usan para codificar alta cantidad de canales señales de audio en un número inferior de canales. Además, este caso de uso incluye decodificación del número de canales inferior para recuperar una aproximación precisa del audio de alta cantidad de canales original. Un segundo caso de uso es el caso de uso de mezcla ascendente ciego que realiza mezcla ascendente ciega de contenido heredado en distribuciones de mono convencional, estéreo o de múltiples canales (tal como 5.1 o 7.1) a distribuciones en 3D que consisten tanto en localizaciones de canal horizontales como elevadas.
Caso de uso de metadatos
El primer caso de uso para las realizaciones del códec 400 y método es como una herramienta de reducción de tasa de bits. Un escenario a modo de ejemplo donde el códec 400 y método pueden usarse para reducción de tasa de bits es cuando la tasa de bits disponible por canal está por debajo de la tasa de bits mínima por canal soportada por el códec 400. En este escenario, las realizaciones del códec 400 y método pueden usarse para reducir el número de canales codificados, posibilitando de esta manera una asignación de tasa de bits superior para los canales supervivientes. Estos canales necesitan codificarse con suficiente alta tasa de bits para evitar desenmascaramiento de artefactos después de de-matrización.
En este escenario el codificador 410 puede usar matrización para reducción de tasa de bits dependiendo de uno o más de los siguientes factores. Un factor es la tasa de bits mínima por canal requerida para codificación de canal discreto (designada como MinBR_Discr). Otro factor es la tasa de bits mínima por canal requerida para codificación de canal matrizado (designada como MinBR_Mtrx). Otro factor más es la tasa de bits disponible total (designada como BR Tot).
Si el codificador 410 desarrolla (cuando (M<N) matrización o no (cuando M=N) se decide basándose en la siguiente fórmula:
T--ot _ > MinBr Discr
Figure imgf000013_0001
_ _ de lo contrario
Además, la distribución de canales original y los metadatos que describen el procedimiento de matrización se llevan en el flujo de bits. Además, el valor de MinBR_Mtrx se elige para que sea suficientemente alto (para cada respectiva tecnología de códec) para evitar desenmascaramiento de artefactos después de de-matrización.
En el lado del decodificador 420, se realiza mezcla ascendente simplemente para proporcionar el formato a la distribución N.x original o a algún subconjunto apropiado de la distribución N.x. Es necesaria mezcla ascendente para conversión de formato adicional. Se supone que la resolución espacial llevada en la distribución N.x original es la resolución espacial pretendida, por lo tanto cualquier conversión de formato adicional consistirá simplemente en mezcla descendente y posible remapeo de altavoces. En el caso de un único flujo basado en canal, la distribución M.x superviviente puede usarse directamente (sin aplicar de-matrización) como un punto de inicio para la derivación de una mezcla descendente deseada K.x (K<M) en el lado del decodificador (M, N son números eneros con N mayor que M).
Otro escenario a modo de ejemplo donde el códec 400 y método pueden usarse para reducción de tasa de bits es cuando la distribución de alta cantidad de canales original tiene precisión espacial alta (tal como 22.2) y la tasa de bits disponible es suficiente para codificar todos los canales de manera discreta, pero no lo suficiente para proporcionar un nivel de calidad de audio básica casi transparente. En este escenario, las realizaciones del códec 400 y método pueden usarse para optimizar el rendimiento global sacrificando ligeramente precisión espacial, pero a cambio permitiendo una mejora en la calidad de audio básica. Esto se consigue convirtiendo la distribución de canales a una distribución con menos canales, precisión espacial suficiente (tal como 11.2), y asignando todo el grupo de bits a canales supervivientes para proporcionar calidad de audio básica a un nivel superior mientras que no tiene un gran impacto en la precisión espacial.
En este ejemplo, el codificador 410 usa matrización como una herramienta para optimizar la calidad global sacrificando ligeramente precisión espacial pero a cambio permitiendo una mejora en calidad de audio básica. Los canales supervivientes se eligen para preservar mejor la precisión espacial original con un número mínimo de canales codificados. Además, la distribución de canales original y metadatos que describen el procedimiento de matrización se llevan en el flujo.
El codificador 410 selecciona una tasa de bits por canal que puede ser suficientemente alta para permitir inclusión de objeto en la distribución superviviente, así como embebido de mezcla descendente adicional. Además, cualquiera de M.x o una mezcla descendente asociada puede reproducirse directamente en unos sistemas 5.1/7.1.
El decodificador 420 en este ejemplo que usa mezcla ascendente se realiza simplemente para proporcionar el formato a la distribución N.x original o a algún subconjunto apropiado de la distribución N.x. No es necesaria conversión de formato adicional. Se supone que la resolución espacial llevada en la distribución N.x original es la resolución espacial pretendida, por lo tanto cualquier conversión de formato adicional consistirá simplemente en mezcla de manera descendente y posiblemente remapeo de altavoces.
Para los escenarios anteriores, la codificación y método descritos en el presente documento pueden aplicarse a un formato basado en canal o a los canales de mezcla de base en un formato de objeto más mezcla de base. La correspondiente operación de decodificación proporcionará la distribución de canales reducida de vuelta a la distribución de alta cantidad de canales original.
Para que la señal de canal reducido se decodifique apropiadamente, el decodificador 420 descrito en el presente documento debe informarse de las distribuciones, parámetros y coeficientes que se usaron en el proceso de codificación. El códec 400 y método definen una sintaxis de flujo de bits para comunicar tal información desde el codificador 410 al decodificador 420. Por ejemplo, si el codificador 410 codificó una mezcla de base de 22.2 canales a una señal reducida de 11.2 canales, entonces la información que describe la distribución original, la distribución de canales reducida, los canales de mezcla descendente de contribución, y los coeficientes de mezcla descendente se transmitirán al decodificador 420 para posibilitar la decodificación apropiada de vuelta a la distribución de cantidad de canales 22.2 original.
Caso de uso de mezcla ascendente ciega
El segundo caso de uso para las realizaciones del códec 400 y método es realizar mezcla ascendente ciega de contenido heredado. Esta capacidad permite que el códec 400 y método conviertan contenido heredado a distribuciones en 3D que incluyen canales horizontales y elevados que adaptan las localizaciones de pantallas de altavoces del entorno de reproducción 485. La mezcla ascendente ciega puede realizarse en distribuciones convencionales tales como mono, estéreo, 5.1, 7.1, y otras.
Vista global general
La Figura 11 es un diagrama de flujo que ilustra la operación general de las realizaciones del códec de matrización espacial basado en multipletes 400 y método mostrados en la Figura 4. La operación comienza seleccionando M número de canales para incluir en una señal de audio de salida mezclada de manera descendente (recuadro 1100). Esta selección está basada en una tasa de bits deseada, como se ha descrito anteriormente. Debería observarse que N y M son números enteros positivos distintos de cero y que N es mayor que M.
A continuación, los N canales se mezclan de manera descendente y se codifican a M canales usando una combinación de leyes de panorámica de multipletes para obtener mezcla de fondo de PCM que contiene M canales codificados por multiplete (recuadro 1110). El método a continuación transmite la mezcla de fondo de PCM a o por debajo de la tasa de bits deseada a través de una red (recuadro 1120). La mezcla de fondo de PCM se recibe y separa en la pluralidad de M número de canales codificados por multiplete (recuadro 1130).
El método a continuación mezcla de manera ascendente y decodifica cada uno de los M canales codificados por multiplete usando una combinación de leyes de panorámica de multipletes para extraer los N canales desde los M canales codificados por multiplete y obtener una señal de audio de salida resultante que tiene N canales (recuadro 1140). Esta señal de audio de salida resultante se representa en un entorno de reproducción que tiene una distribución de canales de reproducción (recuadro 1150).
Las realizaciones del códec 400 y método, o aspectos de los mismos, se usan en un sistema para entrega y grabación de audio de múltiples canales, especialmente cuando han de transmitirse o grabarse grandes números de canales (más de 7). Por ejemplo, en un sistema de este tipo se graba una multitud de canales y se supone que están configurados en una geometría de reproducción conocida que tiene L canales dispuestos a nivel del oído alrededor del oyente, P canales dispuestos alrededor de un anillo de altura dispuesto más alto que el nivel de oído, y opcionalmente un canal central en o cerca del zénit por encima del oyente (donde L y P son números enteros arbitrarios mayores que 1). Los P canales pueden estar dispuestos de acuerdo con diversas geometrías convencionales, y la geometría supuesta es conocida para un ingeniero de mezcla o artista/ingeniero de grabación. De acuerdo con la invención, la L más P cantidad de canales se reduce por un método novedoso de mezcla de matriz a un número inferior de canales (por ejemplo, L+P mapeados a L únicamente). Los canales de cantidad reducida se codifican y comprimen a continuación por métodos conocidos que conservan la naturaleza discreta de los canales de cantidad reducida.
En la decodificación, la operación del sistema depende de las capacidades del decodificador. En decodificadores heredados se reproducen los canales de cantidad reducida (L), teniendo los P canales mezclados en los mismos. En un decodificador más avanzado de acuerdo con la invención, la asociación completa de L P canales puede recuperarse mezclando de manera ascendente y encaminando cada uno a uno correspondiente de los L P altavoces.
De acuerdo con la invención, ambas operaciones de mezcla ascendente y mezcla descendente (matrización/dematrización) incluyen una combinación de leyes de panorámica de pares, tripletes, y cuadrupletes para colocar las fuentes de sonido percibidas, tras la reproducción, correspondiendo de manera estrecha a las localizaciones supuestas pretendidas por el artista o ingeniero de grabación.
La operación de matrización (reducción de distribución de canales) puede aplicarse a los canales de mezcla de base en a) una mezcla de base composición de objeto del flujo o b) una composición del flujo únicamente basada en canal. Además, la operación de matrización puede aplicarse a los objetos estacionarios (objetos que no están en movimiento alrededor) y después la de-matrización aún consigue suficiente separación de objeto que permitirá modificaciones de nivel para individuales
V. Detalles operacionales
Los detalles operacionales de las realizaciones del códec de matrización espacial basado en multipletes 400 y método se analizarán ahora.
V.A. Arquitectura de mezcla descendente
En una realización a modo de ejemplo del sistema de mezcla descendente de matriz basado en multipletes 500, el sistema 500 acepta una señal de audio de N canales y emite una señal de audio de M canales, donde N y M son números enteros y N es mayor que M. El sistema 500 puede estar configurado usando el conocimiento de la distribución de canales del entorno de creación de contenido (original), la distribución de canales mezclada de manera descendente, y coeficientes de mezcla que describen los pesos de mezcla que cada canal original contribuirá a cada canal mezclado de manera descendente. Por ejemplo, los coeficientes de mezcla pueden definirse por una matriz C de tamaño MxN, donde las filas corresponden a los canales de salida y las columnas corresponden a los canales de entrada, tal como:
Figure imgf000015_0001
En algunas realizaciones el sistema 500 puede a continuación realizar la operación de mezcla descendente como:
N
y;M = ^ ci j ' xj ín\ , 1 < i < M
j =i
donde xj[n] es el canal de orden j de la señal de audio de entrada donde 1 < j < N, y,[n] es el canal de orden i de la señal de audio de salida donde 1 < i < M, y cij es el coeficiente de mezcla que corresponde a la entrada ij de la matriz C.
Normalización de sonoridad
Algunas realizaciones del sistema 500 también incluyen un módulo de normalización de sonoridad 980, mostrado en la Figura 9. El proceso de normalización de sonoridad está diseñado para normalizar la sonoridad percibida de la señal mezclada de manera descendente a la de la señal original. Mientras que los coeficientes de mezcla de la matriz C se eligen comúnmente para conservar potencia para un único componente de señal original, por ejemplo una ley de panorámica sen/cos convencional conservará potencia para un único componente, para material de señal más complejo las propiedades de conservación de potencia no se mantendrán. Puesto que el proceso de mezcla descendente combina señales de audio en el dominio de la amplitud y no en el dominio de la potencia, la potencia de señal resultante de la señal mezclada de manera descendente es impredecible y dependiente de la señal. Adicionalmente, puede ser deseable conservar sonoridad percibida de la señal de audio mezclada de manera descendente en lugar de potencia de señal puesto que la sonoridad es una propiedad perceptual más relevante. El proceso de normalización de sonoridad se realiza comparando la relación de la sonoridad de entrada a la sonoridad mezclada de manera descendente. La sonoridad de entrada se estima mediante la siguiente ecuación:
Figure imgf000015_0002
Figure imgf000015_0003
donde L,n es la estimación de sonoridad de entrada, h[n] es un filtro de ponderación de frecuencia tal como un filtro de ponderación de frecuencia “K” como se describe en la norma de medición de sonoridad de la ITU-R BS.1770-3, y (*) indica convolución.
Como puede observarse, la sonoridad de entrada es esencialmente una medida de raíz media cuadrática (RMS) de los canales de entrada de frecuencia ponderada, donde la ponderación de frecuencia está designada para mejorar la correlación con la percepción humana de la sonoridad. Análogamente, la sonoridad de salida se estima mediante la siguiente ecuación:
Figure imgf000016_0001
donde Lout es la estimación de sonoridad de salida.
Ahora que se han calculado las estimaciones de tanto la sonoridad percibida de entrada como la de salida, podemos normalizar la señal de audio mezclada de manera descendente de manera que la sonoridad de la señal mezclada de manera descendente será aproximadamente igual a la sonoridad de la señal original mediante la siguiente ecuación de normalización:
Figure imgf000016_0002
En la ecuación anterior puede observarse que el proceso de normalización de sonoridad da como resultado escalamiento de todos los canales mezclados de manera descendente por la relación de la sonoridad de entrada a la sonoridad de salida.
Mezcla descendente estática
La mezcla descendente estática para un canal de salida dado y[n].
Figure imgf000016_0003
donde xj[n] son los canales de entrada y c¡j son los coeficientes de mezcla descendente para el canal de salida i y canal de entrada j.
Normalización de sonoridad por canal
Mezcla descendente dinámica usando normalización de sonoridad por canal:
Figure imgf000016_0004
donde d[n] es una ganancia dependiente de canal proporcionada como
Figure imgf000016_0005
y L(x) es una función de estimación de sonoridad tal como se define en BS.1770.
De manera intuitiva, las ganancias por canal de variación en el tiempo pueden observarse como la relación de la sonoridad sumada de cada canal de entrada (ponderada por el coeficiente de mezcla descendente apropiado) por la sonoridad de cada canal mezclado de manera descendente estáticamente.
Normalización de sonoridad total
Mezcla descendente dinámica usando normalización de sonoridad total:
Figure imgf000016_0006
donde g[n] es una ganancia independiente de canal proporcionada como
Figure imgf000016_0007
De manera intuitiva, la ganancia independiente de canal variable en el tiempo puede observarse como la relación de la sonoridad sumada de los canales de entrada por la sonoridad sumada de los canales mezclados de manera descendente.
V.B. Arquitectura de mezcla ascendente
En realizaciones a modo de ejemplo del sistema de mezcla ascendente de matriz basado en multipletes 600 mostrado en la Figura 6, el sistema 600 acepta una señal de audio de M canales y emite una señal de audio de N canales, donde M y N son números enteros y N es mayor que M. En algunas realizaciones el sistema 600 tendrá como objetivo una distribución de canal de salida que es la misma que la distribución de canales original según se procesa por un mezclador descendente. En algunas realizaciones el procesamiento de mezcla ascendente se realiza en el dominio de la frecuencia con la inclusión de bancos de filtros de análisis y de síntesis. Realizar el procesamiento de mezcla ascendente en el dominio de la frecuencia permite procesamiento separado en una pluralidad de bandas de frecuencia. Procesar múltiples bandas de frecuencia de manera separada permite al mezclador ascendente manejar situaciones donde diferentes bandas de frecuencia están emanando simultáneamente desde diferentes localizaciones en un campo de sonido. Obsérvese, sin embargo, que también es posible realizar el procesamiento de mezcla ascendente en las señales del dominio de tiempo de banda ancha.
Después de que la señal de audio de entrada se ha convertido a una representación del domino de la frecuencia, se realiza análisis espacial en cualesquiera conjuntos de canales de cuadrupletes tras lo cual los canales excedentes se han matrizado siguiendo la estructura matemática de cuadruplete previamente descrita en el presente documento. Basándose en el análisis espacial de cuadruplete, se extraen canales de salida desde los conjuntos de cuadrupletes, siguiendo de nuevo la estructura de cuadruplete previamente descrita. Los canales extraídos corresponden a los canales de excedente que se matrizaron originalmente en los conjuntos de cuadrupletes en el sistema de mezcla descendente 500. Los conjuntos de cuadrupletes se vuelven a pasar a panorámica apropiadamente basándose en los canales extraídos, siguiendo de nuevo la estructura de cuadruplete previamente descrita.
Después de que se ha realizado el procesamiento de cuadrupletes, los canales mezclados de manera descendente se pasan a módulos de procesamiento de tripletes donde se realiza análisis espacial en cualesquiera conjuntos de canales de tripletes tras lo cual se han matrizado canales excedentes siguiendo la estructura matemática de triplete previamente descrita en el presente documento. Basándose en el análisis espacial de triplete, se extraen canales de salida desde los conjuntos de tripletes, siguiendo de nuevo la estructura de triplete anteriormente descrita. Los canales extraídos corresponden a los canales de excedente que se matrizaron originalmente en los conjuntos de tripletes en el sistema de mezcla descendente 500. Los conjuntos de tripletes se vuelven a pasar a panorámica a continuación apropiadamente basándose en los canales extraídos, siguiendo de nuevo la estructura de triplete anteriormente descrita.
Después de que se ha realizado el procesamiento de tripletes, los canales mezclados de manera descendente se pasan a módulos de procesamiento de parejas donde se realiza análisis espacial en cualesquiera conjuntos de canales de pares tras lo cual se han matrizado canales de excedente siguiendo la estructura matemática de pares previamente descrita en el presente documento. Basándose en el análisis espacial de pares, se extraen canales de salida desde los conjuntos de pares, siguiendo de nuevo la estructura de pares previamente descrita. Los canales extraídos corresponden a los canales de excedente que se matrizaron originalmente en los conjuntos de pares en el sistema de mezcla descendente 500. Los conjuntos de pares se vuelven a pasar a panorámica a continuación apropiadamente basándose en los canales extraídos, siguiendo de nuevo la estructura de pares previamente descrita.
En este punto, la señal de salida de N canales se ha generado (en el dominio de la frecuencia) y consiste en todos los canales extraídos desde los conjuntos de cuadruplete, triplete, y pares así como los canales mezclados de manera descendente que se han vuelto a pasar a panorámica. Antes de convertir los canales de vuelta al dominio del tiempo, algunas realizaciones del sistema de mezcla ascendente 600 pueden realizar una normalización de potencia de subbanda que está diseñada para normalizar la potencia total dentro de cada subbanda de salida a la de cada subbanda mezclada de manera descendente de entrada. La potencia total de cada subbanda mezclada de manera descendente de entrada puede estimarse como:
Figure imgf000017_0001
donde Y[m,k] es el canal mezclado de manera descendente de orden i en el dominio de la frecuencia, Pn[m,k] es la estimación de potencia mezclada de manera descendente total de subbanda, m es el índice de tiempo (posiblemente decimado debido a la estructura de banco de filtros), y k es el índice de subbanda.
De manera similar, la potencia total de cada subbanda de salida puede estimarse como:
Figure imgf000018_0001
donde Zj [m,k] es el canal de salida de orden j en el dominio de la frecuencia y Pout[m,k] es la estimación de potencia de salida total de subbanda.
Ahora que se han calculado las estimaciones de tanto las potencias de subbanda de entrada como de salida, podemos normalizar la señal de audio de salida de manera que la potencia de la señal de salida por subbanda será aproximadamente igual a la potencia de la señal mezclada de manera descendente de entrada por subbanda mediante la siguiente ecuación de normalización:
Figure imgf000018_0002
En la ecuación anterior puede observarse que el proceso de normalización de potencia de subbanda da como resultado escalamiento de todos los canales de salida por la relación de la potencia de entrada a la potencia de salida por subbanda. Si el mezclador ascendente no se realiza en el dominio de la frecuencia, entonces puede realizarse un proceso de normalización de sonoridad en lugar del proceso de normalización de potencia de subbanda similar al que se describe en la arquitectura de mezcla descendente.
Una vez que se han generado todos canales de salida y se han normalizado las potencias de subbanda, los canales de salida del dominio de la frecuencia se envían a un módulo de banco de filtros de síntesis que convierte los canales del dominio de la frecuencia de vuelta a canales del dominio del tiempo.
V.C. Leyes de mezcla, paso a panorámica y mezcla ascendente
La mezcla descendente de matriz real y mezcla ascendente complementaria de acuerdo con las realizaciones del códec 400 y método se realizan usando una combinación de leyes de mezcla de pares, tripletes y también cuadrupletes, dependiendo de la configuración de altavoz. En otras palabras, si al grabar/mezclar un altavoz particular ha de eliminarse o virtualizarse por mezcla descendente, se aplica una decisión de si la posición está en un caso de: a) en o cerca de un segmento de línea entre un par de altavoces supervivientes, b) dentro de un triángulo definido por 3 canales/altavoces supervivientes, o c) dentro de un cuadrilátero definido por cuatro altavoces de canal, cada uno dispuesto en un vértice.
Este último caso es ventajoso para matrizar un canal de altura dispuesto en el zénit, por ejemplo. También obsérvese que en otras realizaciones del códec 400 y método la matrización podría extenderse más allá de conjuntos de canales de cuadrupletes si la geometría de las distribuciones de canales original y mezclado de manera descendente lo requieren, tal como a conjuntos de canales de quintupletes y sextupletes.
En algunas realizaciones del códec 400 y método, la señal en cada canal de audio se filtra en una pluralidad de subbandas, por ejemplo bandas de frecuencia perceptualmente relevantes tales como “Bandas Bark”. Esto puede hacerse ventajosamente por una banda de filtros de espejo de cuadratura o por filtros de polifase, seguido opcionalmente por decimación para reducir el número de muestras requerido en cada subbanda (conocido en la técnica). Después de la filtración, debería realizarse el análisis de mezcla descendente de matriz independientemente en cada subbanda perceptualmente significativa en cada conjunto acoplado de canales de audio (par, triplete, o cuádruple). Cada conjunto acoplado de subbandas se analiza y procesa a continuación preferentemente mediante las ecuaciones y métodos expuestos a continuación para proporcionar una mezcla descendente apropiada, desde la cual el conjunto de canales de subbanda discreto original puede recuperarse realizando una mezcla ascendente complementaria en cada conjunto de subbanda-canal en un decodificador.
El siguiente análisis expone el método preferido de acuerdo con realizaciones del códec 400 y método, para mezclar de manera descendente (y mezclar de manera ascendente complementaria) N a M canales (y viceversa) donde cada uno de los canales de excedente se mezcla a cualquiera de un par (doblete), triplete, o cuadruplete. Las mismas ecuaciones y principios son aplicables si se mezcla en cada subbanda o en canales de señal de banda ancha.
En el caso de mezcla ascendente de decodificador, el orden de las operaciones es significativo en que es muy intensamente preferido, de acuerdo con las realizaciones del códec 400 y método, para procesar en primer lugar conjuntos de cuadrupletes, a continuación conjuntos de tripletes, a continuación pares de canales. Esto puede extenderse a casos donde hay Y-multipletes, de manera que el multiplete más grande se procesa en primer lugar, seguido por el siguiente multiplete más grande, y así sucesivamente. Procesar los conjuntos de canales con el mayor número de canales permite en primer lugar que el mezclador ascendente analice las relaciones de canal más amplias y más generales. Procesando los conjuntos de cuadrupletes antes de los conjuntos de triplete o de pares, el mezclador ascendente puede analizar de manera precisa los componentes de señal relevantes que son comunes a través de todos los canales incluidos en el conjunto de cuadrupletes. Después de que se analizan y procesan las relaciones de canales más amplias mediante el procesamiento de cuadrupletes, puede analizarse y procesarse las siguientes relaciones de canal más amplias mediante el procesamiento de tripletes. Las relaciones de canal más limitadas, las relaciones de pares, se procesan en último lugar. Si los conjuntos de tripletes o pares pasaran a procesarse antes de los conjuntos de cuadrupletes, entonces aunque pueden observarse relaciones de canal significativas a través de los canales de tripletes o pares, aquellas relaciones de canal observadas serían únicamente un subconjunto de las verdaderas relaciones de canal.
Como un ejemplo, considérese un escenario donde un canal dado (llamado este el canal A) de una señal de audio original se mezcla de manera descendente en un conjunto de cuadrupletes. En el mezclador ascendente, el procesamiento de cuadrupletes podrá analizar los c componentes de señal común del canal A a través del conjunto de cuadrupletes y extraer una aproximación del canal de audio original A. Cualquier procesamiento de tripletes o pares posterior se realizará según se espera y no se llevará a cabo análisis o extracción adicional en los componentes de señal de canal A puesto que ya se han extraído. En cambio, si el procesamiento de tripletes se realiza antes del procesamiento de cuadrupletes (y el conjunto de tripletes es un subconjunto del conjunto de cuadrupletes), a continuación el procesamiento de tripletes analizará los componentes de señal común del canal A a través de ese conjunto de tripletes y extrae una señal de audio a un canal de salida diferente (es decir no el canal de salida A). Si se realiza a continuación el procesamiento de cuadrupletes después del procesamiento de tripletes, entonces el canal de audio original A no podrá extraerse puesto que únicamente existirá una porción de los componentes de señal del canal A que aún existirán a través del conjunto de canales de cuadruplete (es decir una porción de los componentes de señal del canal A ya se ha extraído durante el procesamiento de tripletes).
Como se ha explicado anteriormente, en primer lugar procesar conjuntos de cuadrupletes, seguido por conjuntos de tripletes, seguidos por conjuntos de pares en último lugar es la secuencia preferida de procesamiento. Debería observarse que aunque el análisis anterior trata conjuntos de pares (doblete), tripletes, y cuadrupletes, es posible cualquier número de conjuntos. Para conjuntos de pares se forma una línea, para conjuntos de tripletes se forma un triángulo, y para conjuntos de cuadrupletes se forma un cuadrado. Sin embargo, son posibles tipos de polígonos adicionales.
V.D Caso de matrización de pares
De acuerdo con realizaciones del códec 400 y método, cuando la localización de un canal no superviviente (o excedente) radica entre un doblete definido por las posiciones de dos canales supervivientes (o subbandas correspondientes en canales supervivientes), el canal a mezclarse de manera descendente debería matrizarse de acuerdo con un conjunto de relaciones de canal de doblete (o de par), como se expone a continuación.
Las realizaciones del códec de matrización espacial basado en multipletes 400 y método calculan una diferencia de nivel inter-canal entre los canales izquierdo y derecho. Este cálculo se muestra en detalle a continuación. Además, el códec 400 y método usan la diferencia de nivel inter-canal para calcular ángulo de panorámica estimado. Además, se calcula una diferencia de fase inter-canal por el método usando los canales de entrada izquierdo y derecho. Esta diferencia de fase inter-canal determina una diferencia de fase relativa entre los canales de entrada izquierdo y derecho que indica si las señales izquierda y derecha de la señal de audio de entrada de dos canales están en fase o fuera de fase.
Algunas realizaciones del códec 400 y método utilizan un ángulo de panorámica (0) para determinar el proceso de mezcla descendente y posterior proceso de mezcla ascendente desde la mezcla ascendente de dos canales. Además, algunas realizaciones suponen una ley de paso a panorámica Sen/Cos. En estas situaciones, se calcula la mezcla descendente de dos canales como una función del ángulo de panorámica como:
L — ± eos ( 9 —) X¿
R = ± s e n ( d ^ X í
donde es un canal de entrada, L y R son canales de mezcla descendente, O es un ángulo de panorámica (normalizado entre 0 y 1), y la polaridad de los pesos de panorámica se determina por la localización de canal de entrada X. En sistemas de matrización tradicionales es común que los canales de entrada localizados delante del oyente se mezclen de manera descendente con componentes de señal en fase (en otras palabras, con igual polaridad de los pesos de panorámica) y para los canales de salida localizados detrás del oyente se mezclen de manera descendente con componentes de señal fuera de fase (en otras palabras, con polaridad opuesta de los pesos de panorámica).
La Figura 12 ilustra los pesos de panorámica como una función del ángulo de panorámica (0 para la ley de paso a panorámica de Sen/Cos. La primera representación 1200 representa los pesos de panorámica para el canal derecho (Wr). La segunda representación 1210 representa los pesos para el canal izquierdo (Wl). A modo de ejemplo y haciendo referencia a la Figura 12, un canal central puede usar un ángulo de panorámica de 0,5 que conduce a las funciones de mezcla descendente:
L = 0,707 ■ C
R = 0,707 ■ C
Para sintetizar los canales de audio adicionales desde un canal de mezcla descendente de dos canal Aes, puede calcularse una estimación del ángulo de panorámica (o ángulo de panorámica estimado, indicado como 0) a partir de la diferencia de nivel inter-canal (indicada como ICLD). Definiéndose la ICLD como:
Figure imgf000020_0001
Suponiendo que se genera un componente de señal mediante panorámica de intensidad usando la ley de paso a panorámica de Sen/Cos, la ICLD puede expresarse como una función de la estimación de ángulo de panorámica:
Figure imgf000020_0002
La estimación de ángulo de panorámica a continuación puede expresarse como una función de la ICLD:
Figure imgf000020_0003
Las siguientes identidades de suma de ángulo y diferencia se usarán a través de todas las derivaciones restantes
Figure imgf000020_0004
Además, las siguientes derivaciones suponen una configuración de salida de sonido de 5.1 envolvente. Sin embargo, este análisis puede aplicarse fácilmente a canales adicionales.
Síntesis de canal central
Un canal central se genera desde un canal de mezcla descendente de dos canales usando la siguiente ecuación:
Figure imgf000020_0005
donde los coeficientes a y b se determinan basándose en la estimación de ángulo de panorámica 0 para conseguir ciertos objetivos predefinidos.
Componentes en fase
Para los componentes en fase del canal central se ilustra un comportamiento de panorámica deseado en la Figura 13. La Figura 13 ilustra comportamiento de panorámica que corresponde a una representación en fase 1300 dada por la ecuación:
Figure imgf000021_0001
Sustituyendo el comportamiento de panorámica de canal central deseado para componentes en fase y las funciones de mezcla descendente de Sen/Cos supuestas produce:
Figure imgf000021_0002
Usando las identidades de suma de ángulo, los coeficientes de de-matrización, incluyendo un primer coeficiente de de-matrización (indicado como a) y unos segundos coeficientes de de-matrización (indicados como b), pueden derivarse como:
Figure imgf000021_0003
Componentes fuera de fase
Para los componentes fuera de fase del canal central se ilustra un comportamiento de panorámica deseado en la Figura 14. La Figura 14 ilustra comportamiento de panorámica que corresponde a una representación fuera de fase 1400 dada por la ecuación:
c = o
Sustituyendo el comportamiento de panorámica del canal central deseado para componentes fuera de fase y las funciones de mezcla descendente de Sen/Cos supuestas conducen a:
Figure imgf000021_0004
Usando las identidades de suma de ángulo, los coeficientes a y b pueden derivarse como:
Figure imgf000021_0005
Síntesis de canal de envolvente
Los canales de envolvente se generan desde un canal de mezcla descendente de dos canales usando las siguientes ecuaciones:
Ls = aL — bR
Rs — aR — bL
donde Ls es el canal de envolvente izquierdo y Rs es el canal de A envolvente derecho. Además, los coeficientes a y b se determinan basándose en el ángulo de panorámica estimado 0 para conseguir ciertos objetivos predefinidos.
Componentes en fase
El comportamiento de panorámica ideal para componentes en fase del canal de envolvente izquierdo se ilustra en la Figura 15. La Figura 15 ilustra comportamiento de panorámica que corresponde a una representación en fase 1500 dada por la ecuación:
Figure imgf000022_0001
Sustituyendo el comportamiento de panorámica de canal de envolvente izquierdo deseado para los componentes en fase y las funciones de mezcla descendente de Sen/Cos supuestas conducen a:
Figure imgf000022_0002
Usando las identidades de suma de ángulo, los coeficientes a y b se derivan como:
a = s e n ( í? |)
b = eos
Figure imgf000022_0003
Componentes fuera de fase
El objetivo para el canal de envolvente izquierdo para los componentes fuera de fase es conseguir comportamiento de panorámica como se ilustra por la representación fuera de fase 1600 en la Figura 16. La Figura 16 ilustra dos ángulos específicos correspondientes para mezclar de manera descendente las ecuaciones donde los canales de envolvente izquierdo y envolvente derecho se codifican y decodifican de manera discreta (estos ángulos son aproximadamente 0,25 y 0,75 (que corresponden a 45° y 135°) en la representación fuera de fase 1600 en la Figura 16). Estos ángulos se denominan como:
9Ls = Ángulo de codificación de envolvente izquierdo (-0,25)
0Rs = Ángulo de codificación de envolvente derecho (-0,75)
Los coeficientes a y b para el canal de envolvente izquierdo s Ae generan mediante una función definida a trozos debido al comportamiento a trozos de la salida deseada. Para 0 < 9LS, el comportamiento de panorámica deseado para el canal de envolvente izquierdo corresponde a:
Figure imgf000022_0004
Sustituyendo el comportamiento de panorámica de canal de envolvente izquierdo deseado para componentes fuera de fase y las funciones de mezcla descendente de Sen/Cos supuestas conducen a:
Figure imgf000022_0005
Usando las identidades de suma de ángulo, los coeficientes a y b pueden derivarse como:
Figure imgf000023_0001
Sustituyendo el comportamiento de panorámica de canal de envolvente izquierdo deseado para componentes fuera de fase y las funciones de mezcla descendente de Sen/Cos supuestas conducen a:
Figure imgf000023_0002
Usando las identidades de suma de ángulo, los coeficientes a y b pueden derivarse como:
Figure imgf000023_0003
A
Para 0 > 0Rs, el comportamiento de panorámica deseado para el canal de envolvente izquierdo corresponde a:
Ls — 0
Sustituyendo el comportamiento de panorámica de canal de envolvente izquierdo deseado para componentes fuera de fase y las funciones de mezcla descendente de Sen/Cos supuestas conducen a:
Figure imgf000023_0004
Usando las identidades de suma de ángulo, los coeficientes a y b pueden derivarse como:
Figure imgf000023_0005
Los coeficientes a y b para la generación del canal de envolvente derecho se calculan de manera similar a aquellos para la generación del canal de envolvente izquierdo como se ha descrito anteriormente.
Síntesis de canal izquierdo modificado y derecho modificado
Los canales izquierdo y derecho se modifican usando las siguientes ecuaciones para eliminar (ya sea completa o parcialmente) aquellos componentes generados en los canales central y de envolvente:
L' = clL - bR
R' = a R - bL
A
donde los coeficientes a y b se determinan basándose en la estimación de ángulo de panorámica 6 para conseguir ciertos objetivos predefinidos y L' es el canal izquierdo modificado y R' es el canal derecho modificado.
Componentes en fase
El objetivo para el canal izquierdo modificado para componentes en fase es conseguir comportamiento de panorámica como se ilustra por la representación en fase 1700 en la Figura 17. En la Figura 17, un ángulo de panorámica 0 de 0,5 corresponde a un canal central discreto. Los coeficientes a y b para el canal izquierdo modificado se generan mediante una función definida a trozos debido al comportamiento por trozos de la salida deseada.
A
Para 0 < 0,5, el comportamiento de panorámica deseado para el canal izquierdo modificado corresponde a:
L' = eos
Figure imgf000024_0001
Sustituyendo el comportamiento de panorámica del canal izquierdo modificado deseado para componentes en fase y las funciones de mezcla descendente de Sen/Cos supuestas conducen a:
Figure imgf000024_0002
Usando las identidades de suma de ángulo, los coeficientes a y b pueden derivarse como:
Figure imgf000024_0003
A
Para 0 > 0,5, el comportamiento de panorámica deseado para el canal izquierdo modificado corresponde a:
V = o
Sustituyendo el comportamiento de panorámica del canal izquierdo modificado deseado para componentes en fase y las funciones de mezcla descendente de Sen/Cos supuestas conducen a:
0 = se n (0) = a ■ eos
Figure imgf000024_0004
sen(<?0 .
Usando las identidades de suma de ángulo, los coeficientes a y b pueden derivarse como:
Componentes fuera de fase
El objetivo para el canal izquierdo modificado para componentes fuera de fase es conseguir comportamiento de panorámica como se ilustra por la representación fuera de fase 1800 en la Figura 18. En la Figura 18, un ángulo de panorámica 0 = Ols corresponde al ángulo de codificación para el canal de envolvente izquierdo. Los coeficientes a y b para el canal izquierdo modificado se generan mediante una función definida a trozos debido al comportamiento por trozos de la salida deseada.
Para 6 < ds, el comportamiento de panorámica deseado para el canal izquierdo modificado corresponde a:
L J, = eos í e n \
\ 9 - — l s 2J .
Sustituyendo el comportamiento de panorámica del canal izquierdo modificado deseado para componentes fuera de fase y las funciones de mezcla descendente de Sen/Cos supuestas conducen a:
eos
Figure imgf000025_0001
Usando las identidades de suma de ángulo, los coeficientes a y b pueden derivarse como:
Figure imgf000025_0002
Para 0 > 0ls, el comportamiento de panorámica deseado para el canal izquierdo modificado corresponde a:
L' = 0.
Sustituyendo el comportamiento de panorámica del canal izquierdo modificado deseado para componentes fuera de fase y las funciones de mezcla descendente de Sen/Cos supuestas conducen a:
0 = sen(0 ) = a ■ eos ( # 0 — b ■ —s e n ( # 0.
Usando las identidades de suma de ángulo, los coeficientes a y b pueden derivarse como:
a = sen
Figure imgf000025_0003
b = — eos
Figure imgf000025_0004
Los coeficientes a y b para la generación del canal derecho modificado se calculan de manera similar a aquellos para la generación del canal izquierdo modificado como se ha descrito anteriormente.
Interpolación de coeficiente
Las derivaciones de síntesis de canal anteriormente presentadas están basadas en conseguir comportamiento de panorámica deseado para contenido de fuente que es cualquiera de en fase o fuera de fase. La diferencia de fase relativa del contenido de fuente puede determinarse a través de la propiedad de Diferencia de Fase Inter Canal (ICPD) definida como:
Figure imgf000026_0001
donde * indica la conjugación compleja.
El valor de ICPD está delimitado en el intervalo [-1,1] donde los valores de -1 indican que los componentes están fuera de fase y valores de 1 indican que los componentes están en fase. La propiedad de ICPD puede a continuación usarse para determinar los coeficientes a y b finales para usar en las ecuaciones de síntesis de canal usando interpolación lineal. Sin embargo, en lugar de interpolar los coeficientes a y b directamente, puede observarse que no tod Aos los coeficientes a y b se generan usando funciones trigonométricas de la estimación de ángulo de panorámica 0.
La interpolación lineal por lo tanto se lleva a cabo en los argumentos de ángulo de las funciones trigonométricas. Realizar la interpolación lineal de esta manera tiene dos ventajas. En primer lugar, conserva la propiedad de que a2 b2 = 1 para cualquier ángulo de panorámica y valor de ICPD. En segundo lugar, reduce el número de llamadas de función trigonométrica requeridas reduciendo de esta manera los requisitos de procesamiento.
La interpolación de ángulo usa un valor de ICPD modificado normalizado al intervalo [0,1] calculado como:
ICPD + 1
ICPD' 2
Las salidas del canal se calculan como se muestra a continuación.
Canal de salida central
El canal de salida central se genera usando el valor de ICPD modificado, que se define como:
C = aL bR
donde
a =sen(ICPD' ■ a (1 - ICPD') ■ /?)
b = cos(7 CPD’ ■ a + (1 - ICPD') ■ /?)■
El primer término en el argumento de la función seno anterior representa el componente en fase del primer coeficiente de de-matrización, mientras que el segundo término representa el componente fuera de fase. Por lo tanto, «representa un coeficiente en fase y ^representa un coeficiente fuera de fase. Juntos el coeficiente en fase y el coeficiente fuera de fase son conocidos como los coeficientes de fase.
Para cada canal de salida, las realizaciones del códec 400 y método calculan los coeficientes de fase basándose en el ángulo de panorámica estimado. Para el canal de salida central, el coeficiente en fase y el coeficiente fuera de fase se proporcionan como:
Figure imgf000026_0002
Canal de salida de envolvente izquierdo
El canal de salida de envolvente izquierdo se genera usando el valor de ICPD modificado, que se define como:
Figure imgf000026_0003
donde
Figure imgf000027_0003
y
Figure imgf000027_0001
Obsérvese que algunas identidades trigonométricas y propiedades de envolvimiento de fase se aplicaron para simplificar los coeficientes a y ¡3a las ecuaciones proporcionadas anteriormente.
Canal de salida de envolvente derecho
El canal de salida de envolvente derecho se genera usando el valor de ICPD modificado, que se define como:
Figure imgf000027_0004
donde
Figure imgf000027_0002
Obsérvese que los coeficientes a y b para A el canal de envolvente derecho se generan de A manera similar al canal de envolvente izquierdo, además de usar(1 - 6) como el ángulo de panorámica en lugar de 6.
Canal de salida izquierdo modificado
El canal de salida izquierdo modificado se genera usando el valor de ICPD modificado como sigue:
Figure imgf000027_0005
donde
Figure imgf000028_0004
y
Figure imgf000028_0003
Canal de salida derecho modificado
El canal de salida derecho modificado se genera usando el valor de ICPD modificado como sigue:
Figure imgf000028_0001
donde
Figure imgf000028_0005
y
Figure imgf000028_0002
Obsérvese q Aue los coeficientes a y b para el canal derecho A se generan de manera similar al canal izquierdo, además de usar (1 - 0) como el ángulo de panorámica en lugar de 6.
La materia objeto analizada anteriormente es un sistema para generar canales central, de envolvente izquierdo, de envolvente derecho, izquierdo y derecho desde un canal de mezcla descendente de dos canales. Sin embargo, el sistema puede modificarse fácilmente para generar otros canales de audio adicionales definiendo comportamientos de panorámica adicionales.
V.E. Caso de matrización de triplete
De acuerdo con las realizaciones del códec 400 y método, cuando la localización de un canal no superviviente (o de exceso) radica dentro de un triángulo definido por las posiciones de tres canales supervivientes (o correspondientes subbandas en canales supervivientes), el canal a mezclarse de manera descendente debería matrizarse de acuerdo con un conjunto de relaciones de canal de triplete, como se expone a continuación.
Caso de mezcla descendente
Un canal no superviviente se mezcla de manera descendente en tres canales supervivientes que forman un triángulo. Matemáticamente, una señal, S, se pasa a panorámica de amplitud en el triplete de canales C1/C2/C3. La Figura 19 es un diagrama que ilustra la panorámica de una fuente de señal, S, en un triplete de canales. Haciendo referencia a la Figura 19, para una fuente de señal S localizada entre los canales C1 y C2, se supone que los canales C1/C2/C3 se generan de acuerdo con el siguiente modelo de señal:
Figure imgf000029_0001
donde r es la distancia de la fuente de la señal desde el origen (normalizada al intervalo [0,1]) y des el ángulo de la fuente de la señal entre los canales C1 y C2 (normalizado al intervalo [0,1]). Obsérvese que los pesos de panorámica de los canales anteriores para los canales C1/C2/C3 están diseñados para conservar potencia de la señal S ya que se pasan a panorámica en C1/C2/C3.
Caso de mezcla ascendente
El objetivo cuando se mezcla de manera ascendente el triplete es para obtener el canal no superviviente que se mezcló de manera descendente en el triplete creando cuatro canales de salida C1'/C2'/C3'/C4 desde el triplete de entrada C1/C2/C3. La Figura 20 es un diagrama que ilustra la extracción de un cuarto canal no superviviente que se ha pasado a panorámica en un triplete. Haciendo referencia a la Figura 20, la localización del cuarto canal de salida C4 se supone que está en el origen, mientras que la localización de los otros tres canales de salida C1'/0¿/C3 se suponen idénticas a los canales de entrada C1/C2/C3. Las realizaciones del decodificador de matrización espacial basado en multipletes 420 generan los cuatro canales de salida de manera que se conserva la localización espacial y energía de señal del componente de señal original S.
La localización original de la fuente de sonido S no se transmite a realizaciones del decodificador de matrización espacial basado en multipletes 420, y puede estimarse únicamente desde los mismos canales de entrada C1/C2/C3. Las realizaciones del decodificador 420 pueden generar apropiadamente los cuatro canales de salida para cualquier localización arbitraria de S. Para el resto de esta sección, puede suponerse que el componente de señal original S tiene energía unitaria (es decir |S| = 1) para simplificar derivaciones sin pérdida de generalizad.
A A
Derivar estimaciones de r y O desde energías de canal Ci2/C22/C3-Sean,
Figure imgf000029_0002
Relaciones de energía de canal
Las siguientes relaciones de energía se usarán a través de todo el resto de esta sección:
Figure imgf000030_0001
Estas tres relaciones de energía están en el intervalo [0,1] y suman 1.
Síntesis de canal C
El canal de salida C4 se generará mediante la siguiente ecuación:
Figure imgf000030_0004
A A
donde los coeficientes a, b, ye se determinarán basándose en el ángulo estimado 6 y radio r
El objetivo es:
Figure imgf000030_0002
Sea a = da’, b = db’, y c = dc’ donde:
Figure imgf000030_0003
Las sustituciones anteriores conducen a:
Figure imgf000031_0001
Resolviendo para d produce:
Figure imgf000031_0002
Los coeficientes a, b, y c son por lo tanto:
Figure imgf000031_0003
Adicionalmente, los coeficientes a, b, y c finales pueden simplificarse a expresiones que consisten únicamente en las relaciones de energía de canal:
Figure imgf000031_0004
Síntesis de canal Ci’/C2’/C3’
Los canales de salida Ci'ICi/C3 se generarán desde los canales de entrada C1/C2/C3 de manera que los componentes de señal ya generados en el canal de salida C4 se “eliminarán” apropiadamente de los canales de entrada C1IC2IC3.
Síntesis de canal C1
Sea
Figure imgf000031_0005
El objetivo es:
Figure imgf000032_0001
Sea el coeficiente a igual a:
Figure imgf000032_0002
Sea b = db y c = dc’ donde:
Figure imgf000032_0003
Las sustituciones anteriores conducen a:
Figure imgf000032_0004
Resolviendo para d produce:
Figure imgf000032_0005
Los coeficientes finales a, b, y c pueden simplificarse a expresiones que consisten únicamente en las relaciones de energía de canal:
Figure imgf000033_0001
Figure imgf000033_0006
Síntesis de canal C2'
Sea
Figure imgf000033_0002
El objetivo es:
Figure imgf000033_0003
Sea el coeficiente a igual a:
Figure imgf000033_0004
Sea b = db’ y c = dc’ donde:
Figure imgf000033_0005
Las sustituciones anteriores conducen a:
Figure imgf000034_0001
Resolviendo para d produce:
Figure imgf000034_0002
Los coeficientes finales a, b, y c pueden simplificarse a expresiones que consisten únicamente en las relaciones de energía de canal:
Figure imgf000034_0003
Síntesis de canal C3
Sea
Figure imgf000034_0004
El objetivo es:
Figure imgf000034_0005
Sea el coeficiente a igual a:
Figure imgf000035_0001
Sea b = db’ y c = dc’ donde:
Figure imgf000035_0002
Las sustituciones anteriores conducen a:
Figure imgf000035_0003
Resolviendo para d produce:
Figure imgf000035_0004
Los coeficientes finales a, b, y c pueden simplificarse a expresiones que consisten únicamente en las relaciones de energía de canal:
Figure imgf000035_0005
Diferencia de fase inter-canal de triplete (ICPD)
Una propiedad espacial de diferencia de fase inter-canal (ICPD) puede calcularse para un triplete desde los valores de ICPD de pares subyacentes:
ICPD = Igill(^\ICP
Figure imgf000036_0001
donde los valores de ICPD de pares subyacentes se calculan usando la siguiente ecuación:
Figure imgf000036_0002
Obsérvese que el modelo de señal de triplete supone que la fuente de sonido se ha pasado a panorámica de amplitud en los canales de triplete, implicando que los tres canales están completamente correlacionados. La medida de ICPD de triplete puede usarse para estimar la correlación total de los tres canales. Cuando los canales de triplete están completamente correlacionados (o casi completamente correlacionados) puede emplearse la estructura de triplete para generar los cuatro canales de salida con resultados altamente predecibles. Cuando los canales de triplete no están correlacionados, puede ser deseable usar una estructura o método diferente puesto que los canales de triplete no correlacionados violan el modelo de señal supuesto que puede dar como resultado resultados impredecibles.
V.F. Caso de matrización de cuadruplete
De acuerdo con las realizaciones del códec 400 y método, cuando predominan ciertas condiciones de simetría el canal de excedente (o subbanda de canal) puede considerarse ventajosamente que radica dentro de un cuadrilátero. En un caso de este tipo, las realizaciones del códec 400 y método incluyen mezcla descendente (y mezcla ascendente complementaria) de acuerdo con un conjunto de caso de cuadruplete de relaciones expuestas a continuación.
Caso de mezcla descendente
Un canal no superviviente se mezcla de manera descendente en cuatro canales supervivientes que forman un cuadrilátero. Matemáticamente, una fuente de señal, S, está pasada a panorámica de amplitud en el cuadruplete de canales C1/C2/C3/C4. La Figura 21 es un diagrama que ilustra la panorámica de una fuente de señal, S, en un cuadruplete de canales. Haciendo referencia a la Figura 21, para una fuente de señal S localizada entre los canales C1 y C2, se supone que los canales C1/C2/C3/C4 se generan de acuerdo con el siguiente modelo de señal:
Figure imgf000036_0003
donde r es la distancia de la fuente de señal desde el origen (normalizada al intervalo [0,1]) y des el ángulo de la fuente de señal entre los canales C1 y C2 (normalizado al intervalo [0,1]). Obsérvese que los pesos de panorámica de canal anteriores para los canales C1/C2/C3/C4 están diseñados para conservar potencia de la señal S como si estuviera pasada a panorámica en C1/C2/C3/C4.
Caso de mezcla ascendente
El objetivo cuando se mezcla de manera ascendente el cuadruplete es obtener el canal no superviviente que se mezcló de manera descendente en el cuadruplete creando cinco canales de salida Ci'/C2'/C3'/C4'/Cs desde el cuadruplete de entrada C1/C2/C3/C4. La Figura 22 es un diagrama que ilustra la extracción de un quinto canal no superviviente que se ha pasado a panorámica en un cuadruplete. Haciendo referencia a la Figura 22, la localización del quinto canal de salida C5 se supone que está en el origen, mientras que la localización de los otros cuatro canales de salida d/Ci /Ci /CA se suponen idénticas a la de los canales de entrada C1/C2/C3/C4. Las realizaciones del decodificador de matrización espacial basado en multipletes 420 generan los cinco canales de salida de manera que se conserva la localización espacial y energía de señal del componente de señal original S.
La localización original de la fuente de sonido S no se transmite a las realizaciones del decodificador 420, y puede estimarse únicamente desde los mismos canales de entrada C1/C2/C3/C4. Las realizaciones del decodificador 420 pueden generar apropiadamente los cinco canales de salida para cualquier localización arbitraria de S.
Para el resto de la sección, puede suponerse que el componente de señal original S tiene energía unitaria (en otras palabras, |S| = 1) par Aa si Amplificar las derivaciones sin pérdida de generalidad. El decodificador deriva en primer lugar las estimaciones de r y 6 desde las energías de canal C-i2/C22/C32/C42:
Figure imgf000037_0001
Obsérvese que la energía mínima de los canales C3 y C4 se usa en las ecuaciones anteriores (en otras palabras, min(C32, C42)) para manejar situaciones cuando un cuadruplete de entrada C1/C2/C3/C4 descompone las suposiciones de modelo de señal previamente identificadas. El modelo de señal supone que los niveles de energía de C3 y C4 serán iguales entre sí. Sin embargo, si este no es el caso para una señal de entrada arbitraria y C3 no es igual a C4, entonces puede ser deseable limitar volver al paso a panorámica de la señal de entrada a través de los canales de salida C1'/Cí /Cz/Ca/C5,. Esto puede conseguirse sintetizando un canal de salida mínima C5 y conservando los canales de salida d / C i / d / C Á de manera tan similar a sus correspondientes canales de entrada C1/C2/C3/C4 como sea posible. En esta sección, el uso de una función mínima en los canales C3 y C4 intenta conseguir este objetivo.
Relaciones de energía de canal
Las siguientes relaciones de energía se usarán a través de todo el resto de esta sección:
Figure imgf000037_0002
Estas cuatro relaciones de energía están en el intervalo [0,1] y suman 1.
Síntesis de canal C5
El canal de salida C5 se generará mediante la siguiente ecuación:
Figure imgf000037_0003
A A
donde los coeficientes a, b, cy d se determinarán basándose en el ángulo estimado 0 y radio r
Objetivo:
Figure imgf000038_0003
Las sustituciones anteriores conducen a:
Figure imgf000038_0001
Resolviendo e produce:
Figure imgf000038_0002
Los coeficientes a, b, c, y d son por lo tanto:
Figure imgf000039_0001
Adicionalmente, los coeficientes finales a, b, c, y d pueden simplificarse a expresiones que consisten únicamente en las relaciones de energía de canal:
a = 2 /¿1m in(jit3, fi4)
b = 2fi2m\n(fi3, /¿4)
c = 2minQ¿3,/¿4)min(jU3,/¿4)
d — 2m in ( iu3) / i4)m in(/¿3,/ /4)
Síntesis de canal C'ICi'ICz'IC'
Los canales de salida Ci 'ICí ICHCa se generarán desde los canales de entrada C1/C2/C3/C4 de manera que los componentes de señal ya generados en el canal de salida C5 se “eliminarán” apropiadamente de los canales de entrada C1IC2IC3IC4.
Síntesis de canal C1
Figure imgf000039_0002
Objetivo:
Figure imgf000039_0003
Sea el coeficiente a igual a
Figure imgf000040_0001
Sea b = eb’, c = ec\ y d = ed’ donde
Figure imgf000040_0002
Las sustituciones anteriores conducen a:
Figure imgf000040_0003
Resolviendo e produce:
e
Figure imgf000040_0004
Los coeficientes finales a, b, c, y d pueden simplificarse a expresiones que consisten únicamente en las relaciones de energía de canal:
Figure imgf000041_0001
Síntesis de canal C2
Figure imgf000041_0002
Objetivo:
Figure imgf000041_0003
Sea el coeficiente a igual a
Figure imgf000041_0004
Sea b = eb’, c = ec\ y d = ed’ donde
Figure imgf000041_0005
Figure imgf000042_0001
Las sustituciones anteriores conducen a:
Figure imgf000042_0002
Resolviendo e produce:
Figure imgf000042_0003
Los coeficientes finales a, b, c, y d pueden simplificarse a expresiones que consisten únicamente en las relaciones de energía de canal:
Figure imgf000042_0004
Síntesis de canal C3
Figure imgf000042_0005
Objetivo:
Figure imgf000043_0001
Sea el coeficiente a igual a
Figure imgf000043_0002
Sea b = eb’, c = ec’, y d = ed’ donde
Figure imgf000043_0003
Las sustituciones anteriores conducen a:
Figure imgf000043_0004
Resolviendo e produce:
Figure imgf000044_0001
Los coeficientes finales a, b, c, y d pueden simplificarse a expresiones que consisten únicamente en las relaciones de energía de canal:
Figure imgf000044_0002
Síntesis de canal C4
= aC¿ — ¿Ci — cC? dC?
Objetivo:
Figure imgf000044_0003
Sea el coeficiente a igual a
Figure imgf000044_0004
Sea b = eb’, c = ec\ y d = ed’ donde
Figure imgf000044_0005
Figure imgf000045_0001
Las sustituciones anteriores conducen a:
Figure imgf000045_0002
Resolviendo e produce:
Figure imgf000045_0003
Los coeficientes finales a, b, c, y d pueden simplificarse a expresiones que consisten únicamente en las relaciones de energía de canal:
Figure imgf000045_0004
m in(ju3, A¿4) V l - m inQ -^,/4 )
d =
M i M2 m inCptg, / i 4)
Diferencia de fase inter-canal de cuadruplete (ICPD)
Una propiedad espacial de diferencia de fase inter-canal (ICPD) puede calcularse para un cuadruplete desde los valores de ICPD de pares subyacentes:
ICPD =
\C1\\C2 \ICPD12 \C1\\C3 \ICPD13 \C1\\C4f\ICPD14 \C2\\C3\ICPD23 \C2\\C4:\ICPD24f \C3\\Clt \ICPD3A
IC1IIC2I IC1MC3I IC1IIC4I IC2IIC3I IC2IIC4I IC3MC4.I
donde los valores de ICPD depares subyacentes se calculan usando la siguiente ecuación:
Figure imgf000046_0001
Obsérvese que el modelo de señal de cuadruplete supone que se ha pasado a panorámica de amplitud una fuente de sonido en los canales de cuadruplete, implicando que los cuatro canales estén completamente correlacionados. La medida de ICPD de cuadruplete puede usarse para estimar la correlación total de los cuatro canales. Cuando los canales de cuadruplete están completamente correlacionados (o casi completamente correlacionados) la estructura de cuadruplete puede emplearse para generar los cinco canales de salida con resultados altamente predecibles. Cuando los canales de cuadruplete no están correlacionados, puede ser deseable usar una estructura o método diferente puesto que los canales de cuadruplete no correlacionados violan el modelo de señal supuesto que puede dar como resultado resultados impredecibles.
V.G. Representación extendida
Las realizaciones del códec 400 y método representan formas de onda de objeto de audio sobre una serie de altavoces usando una extensión novedosa de técnicas de paso a panorámica de amplitud basadas en vector (VBAP). Las técnicas de VBAP tradicionales crean campos de sonido tridimensionales usando cualquier número de pantallas de altavoz colocadas arbitrariamente en una esfera unitaria. La semiesfera en la esfera unitaria crea un domo sobre el oyente. Con VBAP, el sonido más localizable que crearse proviene desde un máximo de 3 canales componiendo alguna disposición triangular. Si sucede que el sonido proviene de un punto que radica en una línea entre dos altavoces, entonces VBAP usará simplemente estos dos altavoces. Si se supone que el sonido proviene desde la localización donde está localizado un altavoz, entonces VBAP simplemente usará ese un altavoz. Por lo que VBAP usa un máximo de 3 altavoces y un mínimo de 1 altavoz para reproducir el sonido. El entorno de reproducción puede tener más de 3 altavoces, pero la técnica VBAP reproduce el sonido usando únicamente 3 de estos altavoces.
La técnica de representación extendida usada por las realizaciones del códec 400 y método representa objetos de audio fuera la esfera unitaria hasta cualquier punto dentro de la esfera unitaria. Por ejemplo, suponiendo que se crea un triángulo usando tres altavoces. Extendiendo los métodos VBAP tradicionales que localizan una fuente en un punto a lo largo de una línea y extendiendo estos métodos para usar tres altavoces, una fuente puede localizarse en cualquier lugar dentro del triángulo formado por estos tres altavoces. El objetivo del motor de representación es hallar una serie de ganancia para crear el sonido a la posición correcta a lo largo de los vectores en 3D creados por esta geometría con la mínima cantidad de fuga a altavoces vecinos.
La Figura 23 es una ilustración del entorno de reproducción 485 y la técnica de representación extendida. El oyente 100 está localizado con la esfera unitaria 2300. Debería observarse que aunque únicamente se muestra la mitad de la esfera unitaria 2300 (la semiesfera), la técnica de representación extendida soporta representación en y dentro de la esfera unitaria completa 2300. La Figura 23 también ilustra el sistema de coordenadas esférico x-y-z usado que incluye la distancia radial, r, el ángulo de acimut, q, y el ángulo polar, j.
Los multipletes y la esfera deberían cubrir las localizaciones de todas las formas de onda en el flujo de bits. Esta idea puede ampliarse a cuatro o más altavoces si fuera necesario, creando por lo tanto rectángulos y otros polígonos para funcionar dentro, para conseguir de manera precisa la posición correcta en el espacio en la semiesfera de la esfera unitaria 2300.
El motor de representación DTS-UHD realiza paso a panorámica en 3D de fuentes puntuales y extendidas a distribuciones de pantallas de altavoces arbitrarias. Una fuente puntual suena como si se pensara que proviene desde un punto específico en el espacio, mientras que las fuentes extendidas son sonidos con 'anchura' y/o 'altura'. El soporte para extensión espacial de una fuente se hace por medio de contribuciones de modelación de fuentes virtuales que cubren el área del sonido extendido.
La Figura 24 ilustra la representación de fuentes de audio en y dentro de la esfera unitaria 2300 usando la técnica de representación extendida. Las fuentes de audio pueden localizarse en cualquier lugar en o dentro de esta esfera unitaria 2300. Por ejemplo, una primera fuente de audio puede localizarse en la esfera unitaria 2400, mientras que una segunda fuente de audio 2410 y una tercera fuente de audio pueden localizarse dentro de la esfera unitaria usando la técnica de representación extendida.
La técnica de representación extendida representa un punto o fuentes extendidas que están en la esfera unitaria 2300 que rodea el oyente 100. Sin embargo, para fuentes puntuales que están dentro de la esfera unitaria 2300, las fuentes deben moverse fuera la esfera unitaria 2300. La técnica de representación extendida usa tres métodos para mover objetos fuera de la esfera unitaria 2300.
En primer lugar, una vez que la forma de onda se sitúa en la esfera unitaria 2300 usando la técnica de VBAP (o similar), se desvanece con una fuente situada en el centro de la esfera unitaria 2300 para extraer el sonido a lo largo del radio, r. Todos los altavoces en el sistema se usan para realizar el desvanecimiento.
En segundo lugar, para fuentes elevadas, el sonido se extiende en el plano vertical para proporcionar al oyente 100 la impresión de que se está moviendo más cerca. Únicamente se usan los altavoces necesarios para extender el sonido verticalmente. En tercer lugar, para fuentes en el plano horizontal que pueden tener o no elevación cero, el sonido se extiende horizontalmente de nuevo para proporcionar la impresión de que se está moviendo más cerca del oyente 100. Los únicos altavoces activos son aquellos necesarios para hacer la extensión.
V.H. Una selección a modo de ejemplo de canales supervivientes
Dada la categoría de la distribución de entrada, el número seleccionado de canales supervivientes (M), y las siguientes reglas, especifican la matrización de cada canal no superviviente de una manera única independientemente de la distribución de entrada real. Las Figuras 22-25 son tablas de búsqueda que dictan el mapeo de multipletes de matriz para cualesquiera altavoces en la distribución de entrada que no está presentes en la distribución superviviente.
Obsérvese que se aplican las siguientes reglas a las Figuras 25-28. La distribución de entrada se clasifica en 5 categorías:
1. Distribuciones sin canales de altura;
2. Distribuciones con canales de altura únicamente delante;
3. Distribuciones con canales de altura circundantes (sin separación entre dos altavoces de altura > 180°);
4. Distribuciones con canales de altura circundantes y un canal de techo;
5. Distribuciones con canales de altura circundantes, un canal de techo, y canales por debajo del plano del oyente.
Además, cada canal no superviviente está matrizado por pares entre un par de canales supervivientes. En algunos escenarios puede usarse un triplete, cuadruplete, o mayor grupo de canales supervivientes para matrizar un único canal no superviviente. También siempre que sea posible se usa un par de canales supervivientes para matrizar uno y únicamente un canal no superviviente.
Si están presentes canales de altura en la distribución de canales de entrada, deberá existir al menos un canal de altura entre los canales supervivientes. Siempre que sea apropiado deberían usarse al menos 3 canales supervivientes circundantes en cada anillo de pantalla de altavoces (se aplica al anillo del plano del oyente y al anillo de plano elevado).
Cuando no se requiera inclusión de objeto o mezcla descendente embebida, existen otras posibilidades para optimización del enfoque propuesto. En primer lugar, los canales no supervivientes (N-M de ellos deberán denominarse en este escenario “canales cuasi supervivientes”) pueden codificarse con ancho de banda muy limitado (es decir Fc=3 kHz). En segundo lugar, el contenido en los “canales cuasi supervivientes” por encima de Fc debería matrizarse en canales supervivientes seleccionados. En tercer lugar, las bandas bajas de los “canales cuasi supervivientes” y todas las bandas de los canales supervivientes se codifican y empaquetan en un flujo.
La optimización anterior permite impacto mínimo en precisión espacial con aún reducción significativa en la tasa de bits. Para gestionar MIPS de decodificador es necesaria una selección cuidadosa de la representación de tiempofrecuencia para de-matrización de manera que puedan insertarse muestras de subbanda de decodificador en el banco de filtros de síntesis de de-matrización. Por otra parte es posible la relajación sobre la resolución de frecuencia requerida para de-matrización puesto que la de-matrización no se aplica por debajo de Fc.
V.I. Información adicional
En el análisis anterior debería apreciarse que “volver a pasar a panorámica” hace referencia a la operación de mezcla ascendente mediante la cual se recupera la numeración de canales discretos en exceso de los canales mezclados de manera descendente (N>M) de la mezcla descendente en cada conjunto de canales. Preferentemente esto se realiza en cada una de una pluralidad de subbandas perceptualmente críticas, para cada conjunto.
Debería apreciarse que los resultados óptimos o casi óptimos a partir de este método se aproximarán mejor cuando se supone geometría de canal por el artista o ingeniero de grabación (ya sea explícita o implícitamente mediante software o hardware), y cuando además de la geometría y configuraciones de canal supuestas y de mezcla descendente se comunican parámetros por algún medio al decodificador/receptor. En otras palabras, si la grabación original usó una mezcla discreta de 22 canales, basándose en un cierto micrófono/geometría de altavoces que se mezcló hasta una mezcla descendente de 7.1 canales de acuerdo con los métodos de matrización expuestos anteriormente, entonces estas suposiciones deberían comunicarse al receptor/decodificador mediante algún medio para permitir mezcla ascendente complementaria.
Un método sería comunicar en encabezamientos de fichero la geometría original supuesta y la configuración de mezcla descendente (22 con canales de altura en configuración X—mezcla descendente a 7.1 en disposición convencional). Esto requiere únicamente cantidades mínimas de ancho de banda de datos y actualización infrecuente en tiempo real. Los parámetros podrían multiplexarse en campos invertidos en formatos de audio existentes, por ejemplo. Están disponibles otros métodos, incluyendo, almacenamiento en la nube, acceso de sitio web, entrada de usuario, y similares.
En algunas realizaciones del códec 400 y método, el sistema de mezcla ascendente 600 (o decodificador) tiene conocimiento de las distribuciones de canal y coeficientes de mezcla de tanto la señal de audio original como de la señal de audio de canal reducido. El conocimiento de las distribuciones de canal y coeficientes de mezcla permite que el sistema de mezcla ascendente 600 decodifique de manera precisa la señal de audio de canal reducido de vuelta a una aproximación adecuada de la señal de audio original. Sin conocimiento de las distribuciones de canal y coeficientes de mezcla el mezclador ascendente no podría determinar la distribución de canal de salida objetivo o las funciones de decodificador correctas necesarias para generar aproximaciones adecuadas de los canales de audio originales.
Como un ejemplo, una señal de audio original puede consistir en 15 canales que corresponden a las siguientes localizaciones de canal: 1) central, 2) delantero izquierda, 3) delantero derecha, 4) envolvente lateral izquierdo, 5) envolvente lateral derecho, 6) trasero envolvente izquierdo, 7) trasero envolvente derecho, 8) izquierdo o central, 9) derecho de central, 10) altura central, 11) altura izquierda, 12) altura derecha, 13) trasero altura central, 14) trasero altura izquierda, y 15) trasero altura derecha. Debido a restricciones de ancho de banda (o a alguna otra motivación) puede ser deseable reducir esta alta cantidad de canales de señal de audio a una señal de audio de canal reducido que consiste en 8 canales.
El sistema de mezcla descendente 500 puede estar configurado para codificar los 15 canales originales a una señal de audio de 8 canales que consiste en las siguientes localizaciones de canal: 1) central, 2) izquierdo delantero, 3) derecho delantero, 4) envolvente izquierdo, 5) envolvente derecho, 6) altura izquierdo, 7) altura derecho, y 8) trasero altura central. El sistema de mezcla descendente 500 puede estar configurado adicionalmente para usar los siguientes coeficientes de mezcla cuando se realiza mezcla descendente a la señal de audio de 15 canales original:
Figure imgf000048_0001
donde la fila superior corresponde a los canales originales, la columna más a la izquierda corresponde a los canales mezclados de manera descendente, y los coeficientes numéricos corresponden a los pesos de mezcla que contribuye cada canal original a cada canal mezclado de manera descendente.
Para el escenario a modo de ejemplo anterior, para que el sistema de mezcla ascendente 600 decodifique óptimamente o casi óptimamente una aproximación de la señal de audio original desde la señal de canal reducido, el sistema de mezcla ascendente 600 puede tener conocimiento de las distribuciones de canales originales y mezclados de manera descendente (es decir, C, FL, FR, LSS, RSS, LSR, RSR, LoC, RoC, CH, LH, RH, CHR, LHR, RHR y C, FL, FR, LS, RS, LH, RH, CHR, respectivamente) y los coeficientes de mezcla usados durante el proceso de mezcla descendente (es decir, la matriz de coeficiente de mezcla anterior). Con el conocimiento de esta información, el sistema de mezcla ascendente 600 puede determinar de manera precisa las funciones de decodificación necesarias para cada canal de salida usando las estructuras matemáticas de matrización/dematrización expuestas anteriormente puesto que tendrá conocimiento completamente de la configuración de mezcla descendente real usada. Por ejemplo, el sistema de mezcla ascendente 600 tendrá conocimiento para decodificar el canal LSR de salida desde los canales LS y RS mezclados de manera descendente, y también tendrá conocimiento de los niveles de canal relativos entre los canales LS y RS que implicarán una salida de canal LSR discreta (es decir, 0,924 y 0,383, respectivamente).
Si el sistema de mezcla ascendente 600 no puede obtener la distribución de canales relevante e información de coeficiente de mezcla acerca de las señales de audio originales y de canales reducidos, por ejemplo si un canal de datos no está disponible para transmitir esta información desde el sistema de mezcla descendente 500 al mezclador ascendente o si la señal de audio recibida es una señal heredada o no mezclada de manera descendente donde tal información es indeterminada o desconocida, entonces puede aún ser posible realizar una mezcla ascendente satisfactoria usando heurística para seleccionar funciones de decodificación adecuadas para el sistema de mezcla ascendente 600. En estos casos de “mezcla ascendente ciega”, puede ser posible usar la geometría de la distribución de canales reducida y la distribución mezclada de manera ascendente objetivo para determinar funciones de decodificación adecuadas.
A modo de ejemplo, la función de decodificación para un canal de salida dado puede determinarse comparando esa localización del canal de salida con relación al segmento lineal más cercano entre un par de canales de entrada. Por ejemplo, si un canal de salida dado radica directamente entre un par de canales de entrada, puede determinarse extraer componentes de señal común de igual intensidad para ese par en el canal de salida. Análogamente, si el canal de salida dado radica más cerca de uno de los canales de entrada, la función de decodificación puede incorporar esta geometría y favorecer una intensidad mayor para el canal más cercano. Como alternativa, puede ser posible usar suposiciones acerca de las técnicas de grabación, mezcla o producción de la señal de audio para determinar funciones de decodificación adecuadas. Por ejemplo, puede ser adecuado realizar suposiciones acerca de relaciones entre ciertos canales, tal como suponiendo que los componentes de canal de altura pueden haberse pasado a panorámica a través de los pares de canales delantero y trasero (es decir los pares L-Lsr y R-Rsr) de una señal de audio 7.1 tal como como durante un efecto de “sobrevuelo” de una película.
Debería apreciarse también que los canales de audio usados en el sistema de mezcla descendente 500 y el sistema de mezcla ascendente 600 pueden no necesariamente adaptarse a las señales de alimentación de altavoces reales pretendidas para una localización de altavoz específica. Las realizaciones del códec 400 y método son también aplicables a denominados formatos de “audio de objeto” en los que un objeto de audio corresponde a una señal de sonido distinta que se almacena y transmite independientemente con información de metadatos adjunta tal como localización espacial, ganancia, ecualización, reverberación, difusión y así sucesivamente. Comúnmente, un formato de audio de objeto consistirá en muchos objetos de audio sincronizados que necesitan transmitirse simultáneamente desde un codificador a un decodificador.
En escenarios donde ancho de banda de datos está limitado, la existencia de numerosos objetos de audio simultáneos puede provocar problemas debido a la necesidad de codificar individualmente cada forma de onda de objeto de audio distinto. En este caso, las realizaciones del códec 400 y el método son aplicables para reducir el número de formas de onda de objeto de audio necesarias para codificarse. Por ejemplo, si hay N objetos de audio en una señal basada en objeto, el proceso de mezcla descendente de las realizaciones del códec 400 y método puede usarse para reducir el número de objetos a M, donde N es mayor que M. Un esquema de compresión puede a continuación codificar estos M objetos, requiriendo menos ancho de banda de datos que lo que hubieran requerido los N objetos originales.
En el lado del decodificador, el proceso de mezcla ascendente puede usarse para recuperar una aproximación de los N objetos de audio originales. Un sistema de representación puede a continuación representar estos objetos de audio usando la información de metadatos adjunta en una señal de audio basada en canal donde cada canal corresponde a una localización de altavoz en un entorno de reproducción real. Por ejemplo, un método de representación común es panorámica de amplitud basada en vector, o VBAP.
VI. Realizaciones alternativas y entorno de operación a modo de ejemplo
Muchas otras variaciones a las aquellas descritas en el presente documento serán evidentes a partir de este documento. Por ejemplo, dependiendo de la realización, ciertos actos, eventos o funciones de cualquiera de los métodos y algoritmos descritos en el presente documento pueden realizarse en una secuencia diferente, pueden añadirse, unirse, o dejarse fuera todos a la vez (de manera que no todos los actos o eventos descritos son necesarios para la puesta en práctica de los métodos y algoritmos). Además, en ciertas realizaciones, los actos o eventos pueden realizarse de manera concurrente, tal como a través de procesamiento de múltiples hilos, procesamiento de interrupción, o múltiples procesadores o núcleos de procesador o en otras arquitecturas paralelas, en lugar de secuencialmente. Además, diferentes tareas o procesos pueden realizarse por diferentes máquinas y los sistemas informáticos que pueden funcionar juntos.
Los diversos bloques lógicos ilustrativos, módulos, métodos, y procesos de algoritmo y secuencias descritos en relación con las realizaciones desveladas en el presente documento pueden implementarse como hardware electrónico, software informático, o combinaciones de ambos. Para ilustrar de manera evidente esta capacidad de intercambio de hardware y software, se han descrito diversos componentes, bloques, módulos, y acciones de proceso ilustrativas anteriormente en general en términos de su funcionalidad. Ya se implemente tal funcionalidad como hardware o software depende de la aplicación particular y restricciones de diseño impuestas en el sistema global. La funcionalidad descrita puede implementarse de diversas maneras para cada aplicación particular, pero tales decisiones de implementación no deberían interpretarse como que provocan un alejamiento del alcance de este documento.
Los diversos bloques lógicos ilustrativos y módulos descritos en relación con las realizaciones desveladas en el presente documento pueden implementarse o realizarse por una máquina, tal como un procesador de fin general, un dispositivo de procesamiento, un dispositivo informático que tiene uno o más dispositivos de procesamiento, un procesador de señales digitales (DSP), un circuito integrado específico de la aplicación (ASIC), un campo de matriz de puertas programables (FPGA) u otro dispositivo de lógica programable, puerta discreta o lógica de transistor, componentes de hardware discretos, o cualquier combinación de los mismos designada para realizar las funciones descritas en el presente documento. Un procesador de fin general y dispositivo de procesamiento pueden ser un microprocesador, pero como alternativa, el procesador puede ser un controlador, microcontrolador, o máquina de estado, combinaciones de los mismos, o similares. Un procesador puede implementarse también como una combinación de dispositivos informáticos, tal como una combinación de un DSP y un microprocesador, una pluralidad de microprocesadores, uno o más microprocesadores en conjunto con un núcleo de DSP, o cualquier otra configuración de este tipo.
Las realizaciones del códec de matrización espacial basado en multipletes 400 y método descritos en el presente documento son operacionales con numerosos tipos de sistemas informáticos de fin general o de fin especial entornos o configuraciones. En general, un entorno informático puede incluir cualquier tipo de sistema informático, incluyendo, pero sin limitación, un sistema informático basado en uno o más microprocesadores, un ordenador central, un procesador de señales digitales, un dispositivo informático portátil, un organizador personal, un controlador de dispositivo, un motor computacional en un dispositivo, un teléfono móvil, un ordenador de sobremesa, un ordenador móvil, un ordenador de tableta, un teléfono inteligente, y dispositivos con un ordenador embebido, por nombrar unos pocos.
Tales dispositivos informáticos pueden hallarse normalmente en dispositivos que tienen al menos alguna capacidad computacional mínima, incluyendo, pero sin limitación, ordenadores personales, ordenadores de servidor, dispositivos informáticos portátiles, ordenadores portátiles o móviles, dispositivos de comunicaciones tales como teléfonos celulares y PDA, sistemas multiprocesador, sistemas basados en microprocesador, decodificadores de salón, electrónica de consumo programable, PC de red, miniordenadores, ordenadores centrales, reproductores de medios de audio o vídeo, y así sucesivamente. En algunas realizaciones los dispositivos informáticos incluirán uno o más procesadores. Cada procesador puede ser un microprocesador especializado, tal como un procesador de señales digitales (DSP), una palabra de instrucción muy larga (VLIW), u otro micro-controlador, o pueden ser unidades de procesamiento central convencionales (CPU) que tienen uno o más núcleos de procesamiento, incluyendo núcleos de basados en unidades de procesamiento de gráficos (GPU) especializadas en una CPU de múltiples núcleos.
Las acciones de proceso de un método, proceso o algoritmo descritas en relación con las realizaciones desveladas en el presente documento pueden realizarse directamente en hardware, en un módulo de software ejecutado por un procesador, o en cualquier combinación de los dos. El módulo de software puede estar contenido en medio legible por ordenador que puede accederse por un dispositivo informático. El medio legible por ordenador incluye tanto medios volátiles como no volátiles que son extraíbles, no extraíbles o alguna combinación de los mismos. El medio legible por ordenador se usa para almacenar información tal como instrucciones legibles por ordenador o ejecutables por ordenador, estructuras de datos, módulos de programa, u otros datos. A modo de ejemplo, y no como limitación, medio legible por ordenador puede comprender medio de almacenamiento informático y medios de comunicación.
Medio de almacenamiento informático incluye, pero sin limitación, medios legibles por ordenador o máquina o dispositivos de almacenamiento tal como discos Bluray (BD), discos versátiles digitales (DVD), discos compactos (CD), discos flexibles, unidades de cinta, discos duros, unidades ópticas, dispositivos de memoria de estado sólido, memoria RAM, memoria ROM, memoria EPROM, memoria EEPROm , memoria flash u otra tecnología de memoria, cartuchos magnéticos, cintas magnéticas, almacenamiento de disco magnético, u otros dispositivos de almacenamiento magnético, o cualquier otro dispositivo que pueda usarse para almacenar la información deseada y que pueda accederse por uno o más dispositivos informáticos.
Un módulo de software puede residir en la memoria RAM, memoria flash, memoria ROM, memoria EPROM, memoria EEPROM, registros, disco duro, un disco extraíble, un CD-ROM, o cualquier otra forma de medio de almacenamiento legible por ordenador no transitorio, medios, u almacenamiento informático físico conocido en la técnica. Un medio de almacenamiento a modo de ejemplo puede estar acoplado al procesador de manera que el procesador puede leer información desde, y escribir información en, el medio de almacenamiento. Como alternativa, el medio de almacenamiento puede ser integral al procesador. El procesador y el medio de almacenamiento pueden residir en un circuito integrado específico de la aplicación (ASIC). El ASIC puede residir en un terminal de usuario.
Como alternativa, el procesador y el medio de almacenamiento pueden residir como componentes discretos en un terminal de usuario.
La frase “no transitorio” como se usa en este documento significa “perdurable o de larga vida”. La frase “medio legible por ordenador no transitorio” incluye cualquiera y todos los medios legibles por ordenador, con la única excepción de una señal de propagación transitoria. Esta incluye, a modo de ejemplo y sin limitación, medio legible por ordenador no transitorio tal como memoria de registro, caché de procesador y memoria de acceso aleatorio (RAM).
La retención de información tal como instrucciones legibles por ordenador o ejecutables por ordenador, estructuras de datos, módulos de programa, y así sucesivamente, puede conseguirse también usando diversos medios de comunicación para codificar una o más señales de datos moduladas, ondas electromagnéticas (tal como ondas portadoras), u otros mecanismos de transporte o protocolos de comunicaciones, e incluyen cualquier mecanismo de entrega de información alámbrica o inalámbrica. En general, estos medios de comunicación hacen referencia a una señal que tiene una o más de sus características establecidas o cambiadas de tal manera para codificar información o instrucciones en la señal. Por ejemplo, medios de comunicación incluyen medios alámbricos tales como una red alámbrica o conexión de cableado directo que lleva una o más señales de datos moduladas, y medios inalámbricos tales como medios acústicos, de frecuencia de radio (RF), de infrarrojos, láser, y otros para transmitir, recibir, o ambas, una o más señales de datos moduladas u ondas electromagnéticas. Debería incluirse también combinaciones de cualquiera de los anteriores dentro del alcance de medios de comunicación.
Además, uno o cualquier combinación de software, programas, productos de programa informático que realizan alguna o todas las diversas realizaciones del códec de matrización espacial basado en multipletes 400 y método descritos en el presente documento, o porciones de los mismos, pueden almacenarse, recibirse, transmitirse o leerse desde cualquier combinación deseada de medios legibles por ordenador o máquina o dispositivos de almacenamiento y medios de comunicación en forma de instrucciones ejecutables por ordenador u otras estructuras de datos.
Las realizaciones del códec de matrización espacial basado en multipletes 400 y método descritos en el presente documento pueden describirse adicionalmente en el contexto general de instrucciones ejecutables por ordenador, tal como módulos de programa, que se ejecutan por un dispositivo informático. En general, los módulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, y así sucesivamente, que realizan tareas particulares o implementan tipos de datos abstractos particulares. Las realizaciones descritas en el presente documento pueden también ponerse en práctica en entornos informáticos distribuidos donde las tareas se realizan por uno o más dispositivos de procesamiento remotos, o dentro de una nube de uno o más dispositivos, que están enlazados a través de una o más redes de comunicaciones. En un entorno informático distribuido, los módulos de programa pueden estar localizados tanto en medio de almacenamiento informático local como remoto incluyendo dispositivos de almacenamiento de medios. Aún además, las instrucciones anteriormente mencionadas pueden implementarse, en parte o en su totalidad, como circuitos de lógica de hardware, que pueden incluir o no un procesador.
El lenguaje condicional usado en el presente documento, tal como, entre otros, “puede”, “podría”, “por ejemplo,” y similares, a menos que se indique específicamente de otra manera, o se entienda de otra manera dentro del contexto según se use, se pretende que transmita en general que ciertas realizaciones incluyen, mientras que otras realizaciones no incluyen, ciertas características, elementos y/o estados. Por lo tanto, tal lenguaje condicional no se pretende en general que implique que las características, elementos y/o estados se requieren de manera alguna por una o más realizaciones o que una o más realizaciones incluyen necesariamente lógica para decidir, con o sin entrada o solicitud de autor, si estas características, elementos y/o estados están incluidos o han de realizarse en una realización particular. Los términos “que comprende”, “que incluye”, “que tiene” y similares son sinónimos y se usan de manera inclusiva, de una manera abierta, y no excluyen elementos, características actos, operaciones adicionales y así sucesivamente. También, el término “o” se usa en su sentido inclusivo (y no en su sentido exclusivo) de modo que cuando se usa, por ejemplo, para relacionar una lista de elementos, el término “o” significa uno, alguno o todos los elementos en la lista.
Mientras que la descripción detalla anterior del presente documento, describe y señala características novedosas según se aplican a diversas realizaciones, se entenderá que pueden realizarse diversas omisiones, sustituciones y cambios en la forma y detalle de los dispositivos o algoritmos ilustrados sin alejarse del alcance de la invención como se define por las reivindicaciones adjuntas. Como se reconocerá, ciertas realizaciones de las invenciones descritas en el presente documento pueden realizarse dentro de una forma que no proporciona todas las características y beneficios expuestos en el presente documento, ya que algunas características pueden usarse o ponerse en práctica de manera separada de otras.
Además, aunque la materia objeto se ha descrito en lenguaje específico a características estructurales y actos metodológicos, se ha de entender que la materia objeto definida en las reivindicaciones adjuntas no está necesariamente limitada a las características específicas o actos anteriormente descritos. En su lugar, las características específicas y actos descritos anteriormente se desvelan como formas a modo de ejemplo de implementación de las reivindicaciones.

Claims (9)

REIVINDICACIONES
1. Un método realizado por un dispositivo informático para la mezcla descendente en una matriz de una señal de audio que tiene N canales, que comprende:
seleccionar cuáles de los N canales son canales supervivientes y cuáles son canales no supervivientes de tal modo que los canales supervivientes totalicen M canales, donde N y M son números enteros positivos distintos de cero, M es igual o mayor de cuatro y N es mayor que M;
mezclar cada uno de los canales no supervivientes en múltiples de los canales supervivientes utilizando el dispositivo informático y las leyes de panoramización múltiple para obtener pesos panorámicos, comprendiendo la mezcla descendente, además:
mezclar algunos canales no supervivientes en dobletes de canales supervivientes utilizando una ley de panoramización de doblete; mezclar algunos canales no sobrevivientes en tríos de canales supervivientes usando una ley de panoramización de tripletes; mezclar algunos canales no sobrevivientes en cuadruplete de canales supervivientes utilizando una ley de panoramización de cuadruplete; y
codificar y multiplexar los dobletes, tripletes y cuadrupletes del canal superviviente en una secuencia de bits que tiene M canales y transmite el flujo de bits para representar en un entorno de reproducción.
2. El método de la reivindicación 1, en donde los pesos de la panoramización de cuadruplete se generan basándose en: (a) una distancia, r, de una fuente de señal, S, desde un origen en el entorno de reproducción; y (b) un ángulo, 0, de la fuente de señal, S, entre un primer canal y un segundo canal en el cuadruplete del canal superviviente.
3. El método de la reivindicación 2, que comprende además generar los pesos de la panoramización para el canal de cuadruplete superviviente, Ci, C2, C3 y C4, usando las ecuaciones:
Figure imgf000052_0001
4. Un método realizado por un dispositivo informático para la mezcla ascendente en una matriz de una señal de audio que tiene M canales, siendo M igual o mayor de cuatro, que comprende:
separar los M canales en un canal de doblete, un canal de triplete y un canal de cuadruplete;
extraer un primer canal del canal de cuadruplete utilizando el dispositivo informático y una ley de panoramización de cuadruplete;
después de que se haya extraído el primer canal, extraer un segundo canal del canal de triplete usando una ley de panoramización de triplete;
después de que se haya extraído el segundo canal, extraer un tercer canal del canal de doblete usando una ley de panoramización de doblete;
multiplexar el primer canal, el segundo canal, el tercer canal y M canales juntos para obtener una señal de salida que tiene N canales; y
representar la señal de salida en un entorno de reproducción.
5. El método de la reivindicación 4, en donde extraer el primer canal comprende además obtener el primer canal como una suma de cuatro canales del canal de cuadruplete, cada uno ponderado por coeficientes.
6. El método de la reivindicación 5, que comprende además obtener el primer canal, C5, usando la ecuación,
Figure imgf000053_0001
donde los coeficientes a, b, c, y d dados por las ecuaciones,
Figure imgf000053_0002
donde O es un ángulo estimado de C5 entre C1 y C2, y r es una distancia de C5 desde un origen en el entorno de reproducción.
7. El método de la reivindicación 4, que comprende, además:
definir una unidad de esfera imaginaria alrededor de un oyente en el entorno de reproducción, en donde el oyente está en el centro de la esfera de unidad;
definir un sistema de coordenadas esféricas imaginarias en la esfera de unidad, incluyendo la distancia radial, r, el ángulo azimutal, q, y el ángulo polar, j; y
volver a abrir el primer canal a una ubicación dentro de la esfera de unidad.
8. El método de la reivindicación 7, que comprende, además:
posicionar el primer canal en la técnica de representación de la esfera de la unidad; y
desvanecer de forma cruzada el primer canal con una fuente posicionada en el centro de la esfera de la unidad utilizando todos los altavoces en el entorno de reproducción para extraer el primer canal a lo largo de la distancia radial, r.
9. El método de la reivindicación 4, que comprende además extraer un diseño de altavoz del entorno de creación de contenido de la señal de audio que establece el diseño del altavoz que se usó para mezclar contenido de audio codificado en la señal de audio.
ES18197144T 2013-11-27 2014-11-26 Mezcla de matriz basada en multipletes para audio de múltiples canales de alta cantidad de canales Active ES2772851T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201361909841P 2013-11-27 2013-11-27
US14/447,516 US9338573B2 (en) 2013-07-30 2014-07-30 Matrix decoder with constant-power pairwise panning

Publications (1)

Publication Number Publication Date
ES2772851T3 true ES2772851T3 (es) 2020-07-08

Family

ID=56797954

Family Applications (2)

Application Number Title Priority Date Filing Date
ES18197144T Active ES2772851T3 (es) 2013-11-27 2014-11-26 Mezcla de matriz basada en multipletes para audio de múltiples canales de alta cantidad de canales
ES14866041T Active ES2710774T3 (es) 2013-11-27 2014-11-26 Mezcla de matriz basada en multipletes para audio de múltiples canales de alta cantidad de canales

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES14866041T Active ES2710774T3 (es) 2013-11-27 2014-11-26 Mezcla de matriz basada en multipletes para audio de múltiples canales de alta cantidad de canales

Country Status (8)

Country Link
US (1) US9552819B2 (es)
EP (2) EP3444815B1 (es)
JP (1) JP6612753B2 (es)
KR (1) KR102294767B1 (es)
CN (1) CN105981411B (es)
ES (2) ES2772851T3 (es)
PL (2) PL3444815T3 (es)
WO (1) WO2015081293A1 (es)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3175446B1 (en) * 2014-07-31 2019-06-19 Dolby Laboratories Licensing Corporation Audio processing systems and methods
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
US9590580B1 (en) 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
US11128978B2 (en) * 2015-11-20 2021-09-21 Dolby Laboratories Licensing Corporation Rendering of immersive audio content
US9886234B2 (en) 2016-01-28 2018-02-06 Sonos, Inc. Systems and methods of distributing audio to one or more playback devices
JP6703884B2 (ja) * 2016-04-13 2020-06-03 日本放送協会 チャンネル数変換装置、放送受信機およびプログラム
US10375498B2 (en) * 2016-11-16 2019-08-06 Dts, Inc. Graphical user interface for calibrating a surround sound system
CN106774930A (zh) * 2016-12-30 2017-05-31 中兴通讯股份有限公司 一种数据处理方法、装置及采集设备
US10366695B2 (en) * 2017-01-19 2019-07-30 Qualcomm Incorporated Inter-channel phase difference parameter modification
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
EP3625974B1 (en) 2017-05-15 2020-12-23 Dolby Laboratories Licensing Corporation Methods, systems and apparatus for conversion of spatial audio format(s) to speaker signals
CN107506409B (zh) * 2017-08-09 2021-01-08 浪潮金融信息技术有限公司 一种多音频数据的处理方法
KR102468799B1 (ko) 2017-08-11 2022-11-18 삼성전자 주식회사 전자장치, 그 제어방법 및 그 컴퓨터프로그램제품
JP7024794B2 (ja) * 2017-09-06 2022-02-24 ヤマハ株式会社 オーディオシステム、オーディオ機器、及びオーディオ機器の制御方法
US11102601B2 (en) * 2017-09-29 2021-08-24 Apple Inc. Spatial audio upmixing
GB201718341D0 (en) * 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10523171B2 (en) 2018-02-06 2019-12-31 Sony Interactive Entertainment Inc. Method for dynamic sound equalization
US10652686B2 (en) 2018-02-06 2020-05-12 Sony Interactive Entertainment Inc. Method of improving localization of surround sound
US11330370B2 (en) 2018-02-15 2022-05-10 Dolby Laboratories Licensing Corporation Loudness control methods and devices
EP3550561A1 (en) 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
WO2020010072A1 (en) * 2018-07-02 2020-01-09 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding immersive audio signals
WO2020014506A1 (en) * 2018-07-12 2020-01-16 Sony Interactive Entertainment Inc. Method for acoustically rendering the size of a sound source
TWI688280B (zh) * 2018-09-06 2020-03-11 宏碁股份有限公司 正交基底修正之音效控制方法及音效輸出裝置
US11304021B2 (en) 2018-11-29 2022-04-12 Sony Interactive Entertainment Inc. Deferred audio rendering
CN112216310B (zh) * 2019-07-09 2021-10-26 海信视像科技股份有限公司 音频处理方法与装置、以及多声道系统
US11327802B2 (en) * 2019-07-31 2022-05-10 Microsoft Technology Licensing, Llc System and method for exporting logical object metadata
GB2586214A (en) * 2019-07-31 2021-02-17 Nokia Technologies Oy Quantization of spatial audio direction parameters
WO2022124620A1 (en) * 2020-12-08 2022-06-16 Samsung Electronics Co., Ltd. Method and system to render n-channel audio on m number of output speakers based on preserving audio-intensities of n-channel audio in real-time
CN113438595B (zh) * 2021-06-24 2022-03-18 深圳市叡扬声学设计研发有限公司 音频处理系统
CN113838470B (zh) * 2021-09-15 2023-10-03 Oppo广东移动通信有限公司 音频处理方法、装置、电子设备及计算机可读介质及产品
WO2023210978A1 (ko) * 2022-04-28 2023-11-02 삼성전자 주식회사 다채널 오디오 신호 처리 장치 및 방법

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5291557A (en) 1992-10-13 1994-03-01 Dolby Laboratories Licensing Corporation Adaptive rematrixing of matrixed audio signals
US5319713A (en) 1992-11-12 1994-06-07 Rocktron Corporation Multi dimensional sound circuit
US5638452A (en) 1995-04-21 1997-06-10 Rocktron Corporation Expandable multi-dimensional sound circuit
US5771295A (en) 1995-12-26 1998-06-23 Rocktron Corporation 5-2-5 matrix system
US5870480A (en) 1996-07-19 1999-02-09 Lexicon Multichannel active matrix encoder and decoder with maximum lateral separation
US6665407B1 (en) 1998-09-28 2003-12-16 Creative Technology Ltd. Three channel panning system
US6507658B1 (en) * 1999-01-27 2003-01-14 Kind Of Loud Technologies, Llc Surround sound panner
US7003467B1 (en) 2000-10-06 2006-02-21 Digital Theater Systems, Inc. Method of decoding two-channel matrix encoded audio to reconstruct multichannel audio
AU2003216682A1 (en) 2002-04-22 2003-11-03 Koninklijke Philips Electronics N.V. Signal synthesizing
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
US20050052457A1 (en) 2003-02-27 2005-03-10 Neil Muncy Apparatus for generating and displaying images for determining the quality of audio reproduction
US7283684B1 (en) 2003-05-20 2007-10-16 Sandia Corporation Spectral compression algorithms for the analysis of very large multivariate images
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
ATE474310T1 (de) * 2004-05-28 2010-07-15 Nokia Corp Mehrkanalige audio-erweiterung
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
US7283634B2 (en) 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
KR101215868B1 (ko) * 2004-11-30 2012-12-31 에이저 시스템즈 엘엘시 오디오 채널들을 인코딩 및 디코딩하는 방법, 및 오디오 채널들을 인코딩 및 디코딩하는 장치
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
BRPI0608945C8 (pt) * 2005-03-30 2020-12-22 Coding Tech Ab codificador de áudio de multi-canal, decodificador de áudio de multi-canal, método de codificar n sinais de áudio em m sinais de áudio e dados paramétricos associados, método de decodificar k sinais de áudio e dados paramétricos associados, método de transmitir e receber um sinal de áudio de multi-canal codificado, mídia de armazenamento legível por computador, e, sistema de transmissão
US8345899B2 (en) 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
JP5451394B2 (ja) * 2006-09-29 2014-03-26 韓國電子通信研究院 多様なチャネルから構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びにその方法
US8385556B1 (en) * 2007-08-17 2013-02-26 Dts, Inc. Parametric stereo conversion system and method
ES2435792T3 (es) * 2008-12-15 2013-12-23 Orange Codificación perfeccionada de señales digitales de audio multicanal
WO2010097748A1 (en) 2009-02-27 2010-09-02 Koninklijke Philips Electronics N.V. Parametric stereo encoding and decoding
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
KR101710113B1 (ko) 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
CN102859590B (zh) 2010-02-24 2015-08-19 弗劳恩霍夫应用研究促进协会 产生增强下混频信号的装置、产生增强下混频信号的方法以及计算机程序
CN101964202B (zh) * 2010-09-09 2012-03-28 南京中兴特种软件有限责任公司 一种混合多种编码格式的音频数据文件播放处理方法
TWI573131B (zh) * 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
CN102158881B (zh) * 2011-04-28 2013-07-31 武汉虹信通信技术有限责任公司 一种全面评估3g视频电话质量的方法和装置
TW202339510A (zh) 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
TWI505262B (zh) * 2012-05-15 2015-10-21 Dolby Int Ab 具多重子流之多通道音頻信號的有效編碼與解碼
WO2014068817A1 (ja) * 2012-10-31 2014-05-08 パナソニック株式会社 オーディオ信号符号化装置及びオーディオ信号復号装置
CN102984642A (zh) * 2012-12-18 2013-03-20 武汉大学 一种五个扬声器的三维平移方法
EP2979467B1 (en) 2013-03-28 2019-12-18 Dolby Laboratories Licensing Corporation Rendering audio using speakers organized as a mesh of arbitrary n-gons
WO2015038522A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content

Also Published As

Publication number Publication date
US20150170657A1 (en) 2015-06-18
KR102294767B1 (ko) 2021-08-27
PL3074969T3 (pl) 2019-05-31
EP3074969B1 (en) 2018-11-21
ES2710774T3 (es) 2019-04-26
EP3444815A1 (en) 2019-02-20
EP3074969A4 (en) 2017-08-30
PL3444815T3 (pl) 2020-11-30
EP3444815B1 (en) 2020-01-08
WO2015081293A1 (en) 2015-06-04
EP3074969A1 (en) 2016-10-05
JP6612753B2 (ja) 2019-11-27
CN105981411B (zh) 2018-11-30
JP2017501438A (ja) 2017-01-12
CN105981411A (zh) 2016-09-28
US9552819B2 (en) 2017-01-24
KR20160090869A (ko) 2016-08-01

Similar Documents

Publication Publication Date Title
ES2772851T3 (es) Mezcla de matriz basada en multipletes para audio de múltiples canales de alta cantidad de canales
JP6950014B2 (ja) 2dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置
US10477311B2 (en) Merging audio signals with spatial metadata
ES2729624T3 (es) Reducción de la correlación entre canales de fondo ambisónicos de orden superior (HOA)
US11785407B2 (en) Method and apparatus for rendering sound signal, and computer-readable recording medium
ES2907377T3 (es) Aparato, procedimiento y programa informático para la codificación, la decodificación, el procesamiento de escenas y otros procedimientos relacionados con la codificación de audio espacial basada en DirAC
ES2649194T3 (es) Decodificador de audio, codificador de audio, procedimiento para proporcionar al menos cuatro señales de canales de audio sobre la base de una representación codificada, procedimiento para proporcionar una representación codificada sobre la base de al menos cuatro señales de canales de audio y programa informático que utiliza una extensión de ancho de banda
JP6047240B2 (ja) 空間オーディオ信号の異なる再生スピーカ設定に対するセグメント毎の調整
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
ES2524428T3 (es) Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
ES2773293T3 (es) Aparato y método para la renderización de audio empleando una definición de distancia geométrica
ES2339888T3 (es) Codificacion y decodificacion de audio.
KR20190028706A (ko) 근거리/원거리 렌더링을 사용한 거리 패닝
KR20220020849A (ko) 채널 신호를 처리하는 부호화/복호화 장치 및 방법
BR112016016008B1 (pt) Método para renderizar um sinal de áudio
BR112021011170A2 (pt) Aparelho e método para reproduzir uma fonte sonora espacialmente estendida ou aparelho e método para gerar um fluxo de bits a partir de uma fonte sonora espacialmente estendida
BR112020000759A2 (pt) aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro
KR102114440B1 (ko) 일정-파워 페어와이즈 패닝을 갖는 매트릭스 디코더