ES2922373T3 - Realce de señales de audio espacial por decorrelación modulada - Google Patents

Realce de señales de audio espacial por decorrelación modulada Download PDF

Info

Publication number
ES2922373T3
ES2922373T3 ES19172220T ES19172220T ES2922373T3 ES 2922373 T3 ES2922373 T3 ES 2922373T3 ES 19172220 T ES19172220 T ES 19172220T ES 19172220 T ES19172220 T ES 19172220T ES 2922373 T3 ES2922373 T3 ES 2922373T3
Authority
ES
Spain
Prior art keywords
channels
audio
output
decorrelation
sound field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19172220T
Other languages
English (en)
Inventor
David S Mcgrath
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of ES2922373T3 publication Critical patent/ES2922373T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Abstract

Algunos métodos implican recibir una señal de audio de entrada que incluye N canales de audio de entrada, representando la señal de audio de entrada un primer formato de campo sonoro que tiene una resolución de primer formato de campo sonoro, siendo N un número entero >= 2. Se puede aplicar un primer proceso de descorrelación a dos o más de los canales de audio de entrada para producir un primer conjunto de canales descorrelacionados, manteniendo el primer proceso de descorrelación una correlación entre canales del conjunto de canales de audio de entrada. Puede aplicarse un primer proceso de modulación al primer conjunto de canales descorrelacionados para producir un primer conjunto de canales de salida descorrelacionados y modulados. El primer conjunto de canales de salida descorrelacionados y modulados se puede combinar con dos o más canales de salida no descorrelacionados para producir una señal de audio de salida que incluye Ocanales de audio de salida que representan un segundo formato de campo sonoro de resolución relativamente más alta que el primer formato de campo sonoro, siendo O un número entero >= 3 . (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Realce de señales de audio espacial por decorrelación modulada
Referencia cruzada a aplicaciones relacionadas
Esta solicitud reivindica la prioridad de la solicitud provisional núm. 62/127.613 de los Estados Unidos, presentada el 3 de marzo de 2015, y la solicitud provisional núm. 62/298.905 de los Estados Unidos, presentada el 23 de febrero de 2016.
Esta solicitud es una solicitud divisional europea de solicitud EP 16718934.9 (referencia: D15017EP01) de patente de Euro-PCT, presentada el 2 de marzo de 2016.
Campo técnico
La presente invención se refiere a la manipulación de señales de audio que se componen de múltiples canales de audio, y, en particular, se refiere a los métodos utilizados para crear señales de audio con características espaciales de alta resolución, a partir de señales de entrada de audio que tienen características espaciales de más baja resolución.
Antecedentes
Las señales de audio multicanal se utilizan para almacenar o transportar una experiencia auditiva, para un oyente final, que puede incluir la impresión de una escena acústica muy compleja. Las señales multicanal pueden llevar la información que describe la escena acústica utilizando una serie de convenciones comunes que incluyen, entre otras, las siguientes:
Canales de altavoz discretos: la escena de audio puede haberse de alguna manera renderizado para formar canales de altavoz que, cuando se reproducen en la disposición adecuada de altavoces, crean la ilusión de la escena acústica deseada. Los ejemplos de formatos de canales de altavoces discretos incluyen señales estéreo, 5.1 o 7.1, tal como se utilizan en muchos formatos de sonido en la actualidad.
Objetos de audio: la escena de audio puede representarse como uno o más canales de audio de objetos que, cuando son renderizados por el equipo de reproducción de los oyentes, pueden recrear la escena acústica. En algunos casos, cada objeto de audio irá acompañado de metadatos (implícitos o explícitos) que utilizan el renderizador para proyectar el objeto a la ubicación adecuada en el entorno de reproducción de los oyentes. Los ejemplos de formatos de objetos de audio incluyen Dolby Atmos, que se utiliza para soporte de bandas sonoras enriquecidas en Blu-Ray Disc y otros formatos para películas.
Canales de campo sonoro: la escena de audio puede estar representada por un formato de campo sonoro - un conjunto de dos o más señales de audio que contienen colectivamente uno o más objetos de audio con la ubicación espacial de cada objeto codificada en el formato espacial en forma de ganancias de panoramización. Los ejemplos de formatos de campo sonoro incluyen ambisónicos y ambisónicos de orden superior (ambos bien conocidos en la técnica).
Esta divulgación se refiere a la modificación de señales de audio multicanal que se adhieren a diversos formatos espaciales.
El documento WO 2011/090834 A1 describe el uso de un sistema de ecuaciones lineales para mezclar un número N de señales de audio para generar un número mayor M de señales de audio que están psicoacústicamente decorrelacionadas entre sí y que pueden usarse para mejorar la representación. de un campo sonoro difuso. Las ecuaciones lineales están definidas por una matriz que especifica, en un espacio M-dimensional, un conjunto de vectores que son substancialmente ortogonales entre sí. Se divulgan métodos para derivar el sistema de ecuaciones lineales. Se conocen esquemas adicionales de reformateo y mezcla de señales de audio a partir de los documentos EP 2830333 A1 y US 2009/0240503 A1.
Formatos de campo sonoro
Un formato de campo sonoro de canal N puede definirse por su función de panoramización, Pw(p). Específicamente, G=Pn(v ), donde G representa un vector [N * 1] de columna de valores de ganancia, y y define la ubicación espacial del objeto.
Figure imgf000003_0001
Por consiguiente, un conjunto de M objetos de audio (oi(t), 02(t), •••, OM(t)) puede codificarse en la señal XN(t) de formato espacial de canal N según la ecuación 2 (donde el objeto de audio m está ubicado en la posición definida por pm):
XN(t) = I " =1 P (0m) X 0m(t) (2)
Figure imgf000003_0002
Sumario
Como se describe en detalle en el presente documento, la presente divulgación proporciona un método para procesar señales de audio de acuerdo con la reivindicación 1.
Algunos o todos los métodos descritos en el presente documento pueden ser realizados por uno o más dispositivos de acuerdo a instrucciones (por ejemplo, de equipo lógico informático o software) almacenadas en medios no transitorios. Tales medios no transitorios pueden incluir dispositivos de memoria tales como los descritos en el presente documento, incluidos, pero sin limitarse a, dispositivos de memoria de acceso aleatorio (RAM), dispositivos de memoria de sólo lectura (ROM), etc.
La presente divulgación proporciona adicionalmente un programa informático de acuerdo con la reivindicación 6. Al menos algunos aspectos de esta divulgación pueden implantarse en un aparato que incluya un sistema de interfaz y un sistema de control, de acuerdo con la reivindicación 7. El sistema de control puede incluir al menos un elemento de entre un procesador de microprocesador único o múltiple de fines generales, un procesador de señal digital (DSP), un circuito integrado de aplicación específica (ASIC), una matriz de puertas programables en campo (FPGA) u otro dispositivo lógico programable, lógica de transistor o puerta discreta, o componentes discretos de equipo físico informático o hardware. El sistema de interfaz puede incluir una interfaz de red. En algunas implantaciones, el aparato puede incluir un sistema de memoria. El sistema de interfaz puede incluir una interfaz entre el sistema de control y al menos una parte (por ejemplo, al menos un dispositivo de memoria) del sistema de memoria.
Breve descripción de los dibujos
Para una comprensión más completa de la divulgación, se hace referencia a la siguiente descripción y a los dibujos que se acompañan, en los que:
la figura 1A muestra un ejemplo de un formato de campo sonoro de alta resolución que se decodifica a los altavoces; la figura 1B muestra un ejemplo de un sistema en el que un formato de campo sonoro de baja resolución se convierte en formato de alta resolución antes de decodificarse en los altavoces;
la figura 2 muestra un formato de campo sonoro de baja resolución de 3 canales que se convierte en formato a un formato de campo sonoro de alta resolución de 9 canales, antes de ser decodificado en altavoces;
la figura 3 muestra la ganancia, desde un objeto de entrada de audio en ángulo p, codificado en un formato de campo sonoro y luego decodificado a un altavoz en ps' = 0, para dos formatos de campo sonoro diferentes;
la figura 4 muestra la ganancia, desde un objeto de entrada de audio en ángulo p, codificado en un formato BF4h de campo sonoro de 9 canales y luego decodificado en una matriz de 9 altavoces;
la figura 5 muestra la ganancia, desde un objeto de entrada de audio en ángulo p, codificado en un formato BF1h de campo sonoro de 3 canales y luego decodificado en una matriz de 9 altavoces.
la figura 6 muestra un método (de la técnica anterior) para crear el formato BF4h de campo sonoro de 9 canales a partir del formato BF1h de campo sonoro de 3 canales;
la figura 7 muestra un método (de la técnica anterior) para crear el formato BF4h de campo sonoro de 9 canales a partir del formato BF1h de campo sonoro de 3 canales, con refuerzo de ganancia para compensar la potencia perdida;
la figura 8 muestra un ejemplo de un método alternativo para crear el formato BF4h de campo sonoro de 9 canales a partir del formato BF1h de campo sonoro de 3 canales;
la figura 9 muestra la ganancia, a partir de un objeto de entrada de audio en un ángulo p=0, codificado en un formato BF1h de campo sonoro de 3 canales, formato convertido a un formato BF4h de campo sonoro de 9 canales y luego decodificado a altavoces ubicados en las posiciones ps;
la figura 10 muestra otro método alternativo para crear el formato BF4h de campo sonoro de 9 canales a partir del formato BF1h de campo sonoro de 3 canales;
la figura 11 muestra un ejemplo del convertidor de formato utilizado para renderizar objetos con tamaño variable; la figura 12 muestra un ejemplo del convertidor de formato utilizado para procesar la trayectoria de la señal difusa en un sistema de mezcla;
la figura 13 es un diagrama de bloques que muestra ejemplos de componentes de un aparato capaz de realizar diversos métodos descritos en el presente documento; y
la figura 14 es un diagrama de flujo que muestra bloques de ejemplo de un método descrito en el presente documento.
Descripción detallada de realizaciones de ejemplo
En la figura 1A se muestra un proceso de la técnica anterior, mediante el cual se utiliza una función de panoramización dentro del panoramizador A [1], para producir la señal [5] de campo sonoro original de canal Np, Y(t) , que se decodifica subsiguientemente a un conjunto de señales Ns de altavoz, mediante el decodificador [4] de altavoz (una matriz [Ns x Np]).
En general, el formato de campo sonoro se puede utilizar en situaciones en las que se desconoce la disposición de los altavoces de reproducción. La calidad de la experiencia auditiva final dependerá tanto de (a) la capacidad de llevar la información del formato de campo sonoro, como de (b) la cantidad y disposición de los altavoces utilizados en el entorno de reproducción.
Si asumimos que el número de altavoces es mayor o igual a Np (por lo tanto, Ns >Np), entonces la calidad percibida de la reproducción espacial estará limitada por Np, el número de canales en la señal [5] de campo sonoro original. A menudo, el panoramizador A [1] hará uso de una familia particular de funciones de panoramización conocidas como formato B (también denominadas en la literatura como reglas de panoramización armónicas esféricas, ambisónicas o ambisónicas de orden superior), y esta divulgación se ocupa inicialmente de los formatos espaciales que se basan en las reglas de panoramización del formato B.
La figura 1B muestra un panoramizador alternativo, el panoramizador B [2], configurado para producir una señal [6] de campo sonoro de entrada, un formato espacial x(t) de canal Nr , que luego se procesa para crear una señal [7] de campo sonoro de salida de canal Np, y(t), por el convertidor [3] de formato, donde Np > Nr .
Esta divulgación describe métodos para implantar el convertidor [3] de formato. Por ejemplo, esta divulgación proporciona métodos que se pueden usar para construir los filtros lineales e invariantes en el tiempo (LTI) usados en el convertidor [3] de formato, con el fin de proporcionar una función de transferencia LTI de entrada de Nr, salida de Np para nuestro convertidor [3] de formato, de modo que la experiencia auditiva proporcionada por el sistema de la figura 1B resulte perceptivamente lo más cercana posible a la experiencia auditiva del sistema de la figura 1A.
Ejemplo - BF1H a BF4H
Comenzamos con un escenario de ejemplo, en el que el panoramizador A [1] de la figura 1A está configurado para producir un campo sonoro de formato B horizontal de cuarto orden, de acuerdo con las siguientes ecuaciones de panoramizador (obsérvese que la terminología BF4h se usa para indicar formato B de cuarto orden horizontal):
Figure imgf000005_0001
En este caso, la variable y representa un ángulo de acimut, Np = 9, y PBF4h(y) representa un vector de columna [9 x 1] (y, por lo tanto, la señal Y(t) constará de 9 canales de audio).
Ahora, supongamos que el panoramizador B [2] de la figura 1B está configurado para producir un campo sonoro de formato B de primer orden:
Figure imgf000005_0002
Por consiguiente, en este ejemplo, N=3 y PBFih(y) representa un vector [3 x 1] de columna (y por consiguiente, la señal X(t) de la figura 1B constará de 3 canales de audio). En este ejemplo, nuestro objetivo es crear la señal [7] de campo sonoro de salida de 9 canales de la figura 1B, Y(t), que se deriva de un proceso LTI de X(t), adecuada para decodificar cualquier conjunto de altavoces, de modo que se alcance una experiencia auditiva optimizada.
Como se muestra en la figura 2, nos referiremos a la función de transferencia de este proceso de conversión de formato LTI como H.
La matriz lineal del decodificador de altavoces
En el ejemplo que se muestra en la figura 1B, el convertidor [3] de formato recibe la señal [6] de campo sonoro de entrada de canal Nr como entrada, y emite la señal [7] de campo sonoro de salida de canal Np. El convertidor [3] de formato no recibirá generalmente información sobre la disposición final de los altavoces en el entorno de reproducción de los oyentes. Podemos ignorar con seguridad la disposición de los altavoces si elegimos suponer que el oyente tiene una cantidad suficientemente grande de altavoces (esta es la suposición antes mencionada, Ns > Np), aunque los métodos descritos en esta divulgación producirán una experiencia auditiva adecuada para un oyente cuyo entorno de reproducción tenga menos altavoces aún.
Dicho esto, será conveniente poder ilustrar el comportamiento de los convertidores de formato descritos en el presente documento, mostrando el resultado final cuando las señales Y(t) e Y(t) de formato espacial sean finalmente decodificadas a los altavoces.
Con el fin de decodificar una señal Y(t) de campo sonoro de canal Np , a Ns altavoces, se puede aplicar una matriz [Ns x Np] a la señal de campo sonoro, como sigue:
Altvz(t) = DecodificarMatriz X Y(t) (6)
Si centramos nuestra atención en un altavoz, podemos ignorar los otros altavoces de la matriz y mirar una fila de DecodificarMatriz. Llamaremos a esto el vector DecodificarFila, DecN (ys) , lo que indica que esta fila de DecodificarMatriz está destinada a decodificar la señal de campo sonoro de canal N a un altavoz ubicado en el ángulo ys.
Para señales de formato B del tipo descrito en las ecuaciones 4 y 5, el vector de fila de decodificación se puede calcular de la siguiente manera:
Figure imgf000005_0003
'I
Dec9(0s) = -Ps m (0)T (9)
JíW tW O 7 = J ( l a/2cos0s V2cos40s V 2sen4^) (10)
Obsérvese que aquí se muestra Dec3(ps) para permitirnos examinar el escenario hipotético en el que se decodifica una señal BF1h de 3 canales a los altavoces. Sin embargo, el vector de fila de decodificación de altavoz de 9 canales, Dec9(ps), sólo se usa en algunas implantaciones del sistema mostrado en la figura 2.
Obsérvese, también, que pueden usarse formas alternativas del vector Dec9ps) de fila de decodificación, para crear curvas de panoramización de altavoz con otras propiedades deseables. No es la intención de este documento definir los mejores coeficientes del decodificador de altavoz, y el valor de las implantaciones divulgadas en el presente documento no depende de la elección de los coeficientes del decodificador de altavoz.
La ganancia total del objeto de entrada de audio al altavoz
Ahora podemos poner juntos los tres bloques principales de procesamiento de la figura 2, y esto nos permitirá definir la manera en la que un objeto de entrada de audio, panoramizado para la ubicación p, aparecerá en la señal alimentada a un altavoz que se encuentre en la posición ps en el entorno de reproducción de los oyentes: gananciax9 ((p, (ps) = Dec9(0s) x H x P3(0) (11)
En la ecuación 11, P3(p) representa un vector [3 * 1] de valores de ganancia que panoramiza el objeto de entrada de audio, en la ubicación p, al formato BF1h.
En este ejemplo, H representa una matriz [9 * 3] que realiza la conversión de formato del formato BF1h al formato BF4h.
En la ecuación 11, Dec9(ps) representa al vector [1 * 9] de fila que decodificó la señal BF4h a un altavoz ubicado en una posición ps en el entorno de escucha.
A modo de comparación, podemos también definir la ganancia de extremo a extremo del sistema (técnica anterior) que se muestra en la figura 1A, que no incluye un convertidor de formato.
ganancia9{(l), 0S) = Dec9(0s) x P9(0) (12)
La línea de puntos en la figura 3 muestra la ganancia total, gananciag(p, ps), desde un objeto de audio ubicado en el ángulo azimutal p a un altavoz ubicado en ps = 0, cuando el objeto es panoramizado en formato de campo sonoro BH4h (mediante el vector GñF4h(p) de ganancia) y luego es decodificado por el vector de fila de decodificación Dec9(0).
Este trazado de ganancia muestra que la ganancia máxima desde el objeto original al altavoz se produce cuando el objeto está ubicado en la misma posición que el altavoz (en p=0), y a medida que el objeto se aleja del altavoz la ganancia cae rápidamente a cero (en p=40°).
Además, la línea continua en la figura 3 muestra la ganancia, ganancia3(p, ps), cuando un objeto se panoramiza en el formato BH1h de campo sonoro de 3 canales, y luego se decodifica en una matriz de altavoces mediante el vector de fila de decodificación Dec3(0).
Qué falta en la señal X(t) de baja resolución
Cuando se colocan múltiples altavoces en un círculo alrededor del oyente, las curvas de ganancia que se muestran en la figura 3 se pueden volver a trazar para mostrar todas las ganancias de los altavoces. Esto nos permite observar cómo interactúan entre sí los altavoces.
Por ejemplo, cuando se colocan 9 altavoces, a intervalos de 40° alrededor de un oyente, el conjunto resultante de 9 curvas de ganancia se muestra en las figuras 4 y 5, para los casos de 9 y 3 canales, respectivamente.
En ambas figuras, la figura 4 y la figura 5, la ganancia en el altavoz ubicado en ps = 0 se traza con una línea continua, y las de los otros altavoces se trazan con líneas de puntos.
En la figura 4 se observa que, cuando un objeto se ubica en p=0, la señal de audio para este objeto se presenta al altavoz frontal (en ps = 0) con una ganancia de 1.0. Además, la señal de audio de este objeto estará presente en todos los demás altavoces con una ganancia de 0.0.
Cualitativamente, en base a la observación de la figura 4, podemos decir que el formato BH4h de campo sonoro, cuando se decodifica a través de los vectores de fila de decodificación Dec9s(ys), proporciona una renderización de alta calidad en 9 altavoces, en el sentido de que un objeto ubicado en y=0 aparecerá en el altavoz frontal, sin energía en los otros 8 altavoces.
Desafortunadamente, no se puede hacer la misma evaluación cualitativa en relación con la figura 5, que muestra el resultado cuando el formato BH1h de campo sonoro se decodifica en 9 altavoces.
Las deficiencias de las curvas de ganancia de la figura 5 se pueden describir en términos de dos atributos diferentes: Distribución de potencia: cuando un objeto se ubica en y = 0, la distribución de potencia óptima a los altavoces se produciría cuando se aplicara toda la potencia al altavoz frontal (en ys = 0) y se aplicara potencia cero a los otros 8 altavoces. El decodificador BH1h no consigue esta distribución de energía, ya que una cantidad importante de potencia se reparte entre los demás altavoces.
Correlación excesiva: cuando un objeto, ubicado en y = 0, se codifique con el formato BF1h de campo sonoro y se decodifique mediante el vector de fila de decodificación Dec3(ys), los cinco altavoces frontales (en ys = -80°, -40°, 0°, 40° y 80°) contendrán la misma señal de audio, lo que dará como resultado un alto nivel de correlación entre estos cinco altavoces. Además, los dos altavoces traseros (en ys = -160° y 160°) estarán desfasados con los canales delanteros. El resultado final es que el oyente experimentará una sensación de fase incómoda, y los pequeños movimientos del oyente darán como resultado notables artefactos de rastreo.
Los métodos de la técnica anterior han intentado resolver el problema de la correlación excesiva, añadiendo componentes de señal decorrelacionados, con el consiguiente empeoramiento del problema de distribución de potencia.
Algunas implantaciones descritas en el presente documento pueden reducir la correlación entre los canales de los altavoces al mismo tiempo que conservan la misma distribución de potencia.
Diseñando mejores conversores de formato
A partir de las Ecuaciones 4 y 5, podemos ver que los tres valores de ganancia de panorama que definen el formato BF1h son un subconjunto de los nueve valores de ganancia de panorama que definen el formato BF4h. Por consiguiente, la señal de baja resolución, X(t) podría haberse derivado de la señal de alta resolución, Y(t), mediante una simple proyección lineal, Mp.
X(t) = M V X Y \ t ) (13)
Figure imgf000007_0001
Recuerde que uno de los propósitos del convertidor [3] de formato que aparece en la figura 1 es volver a generar una señal Y(t) nueva que proporcione al oyente final una experiencia acústica que se asemeje mucho a la experiencia transmitida por la señal más precisa Y(t). La elección óptima de mínimos cuadrados medios para la operación del convertidor de formato, H l s , se puede calcular tomando la pseudoinversa de Mp:
YLS( t ) = H LSx X ( t ) (15)
Figure imgf000007_0002
En la ecuación 16, Mp + representa la pseudoinversa de Moore-Penrose, que es bien conocida en la técnica.
La nomenclatura utilizada en el presente documento pretende transmitir el hecho de que la solución de mínimos cuadrados funciona mediante el uso de la matriz de conversión de formato, H l s , para producir una nueva señal de 9 canales, Y l s ( í) que coincide con Y(t) tanto como sea posible. posible en un sentido de mínimos cuadrados.
Si bien la solución de mínimos cuadrados (H ls = M+) proporciona el mejor ajuste en un sentido matemático, un oyente encontrará que el resultado tiene una amplitud demasiado baja, porque el formato BF1h de campo sonoro de 3 canales es idéntico al formato BF4h de 9 canales con 6 canales descartados, como se muestra en la figura 6. En consecuencia, la solución de mínimos cuadrados implica eliminar 2/3 de la potencia de la escena acústica.
Una (pequeña) mejora podría provenir simplemente de amplificar el resultado, como se ilustra en la figura 7. En uno de tales ejemplos, los componentes distintos de cero y1 (t)-y3(t) de la solución de mínimos cuadrados se obtienen aplicando una ganancia gLs a los componentes distintos de cero x1(t)-X3(t), como sigue:
Hlsi = Bls^ ls (17)
donde
Figure imgf000008_0001
El método de modulación para la decorrelación
Aunque las conversiones de formato de las figuras 6 y 7 pueden proporcionar una experiencia de reproducción más o menos aceptable para el oyente, pueden producir un grado muy alto de correlación entre los altavoces vecinos, como lo evidencian las curvas superpuestas en la figura 5.
En lugar de limitarnos a reforzar los componentes de la señal de baja resolución (como se hace en la figura 7), una mejor alternativa es añadir más energía a los términos de orden superior de las señales de BF4h, utilizando versiones decorrelacionadas de las señales de BF1 h de entrada.
Algunas implantaciones descritas en el presente documento implican definir un método para sintetizar aproximaciones de uno o más componentes de orden superior de Y(t) (como, por ejemplo, y4(t), y5(t), y6(t), yi(t), ys(t) e yg(t)) de uno o más componentes de campo sonoro de baja resolución de X(t) (por ejemplo, xi(t), xi(t) y X3(t)). Para crear los componentes de orden superior de Y(t), algunos ejemplos utilizan decorrelacionadores. Usaremos el símbolo A para denotar la función que toma una señal de entrada de audio y produce una señal de salida que un oyente humano percibe que está decorrelacionada con la señal de entrada.
Se ha escrito mucho en diversas publicaciones sobre métodos para implantar un decorrelacionador. En aras de la simplicidad, en el presente documento definiremos dos decorrelacionadores computacionalmente eficientes, que consisten en un retardo de 256 muestras y un retardo de 512 muestras (usando la notación de transformada z que le es familiar al experto en la técnica):
Ai = z -256 (20)
Los decorrelacionadores anteriores son simplemente ejemplos. En implantaciones alternativas, pueden usarse otros métodos de decorrelación, tales como otros métodos de decorrelación que son bien conocidos por el experto en la técnica, en lugar de, o además de, los métodos de decorrelación descritos en el presente documento.
Con el fin de crear los componentes de orden superior de Y(t), algunos ejemplos implican elegir uno o más decorrelacionadores (tales como los Ai y A2 de la figura S) y las correspondientes funciones de modulación (tales como modi(ys)= cos3^s y mod2(tys) = sen3^s). En este ejemplo, también definimos las funciones de modulador y decorrelacionador de no hacer nada, Ao = i y mod o(^s) = i. Luego, para cada función de modulación, seguimos estos pasos:
i. Nos dan una función de modulación, modk (tys). Nuestro objetivo es construir una matriz [Np x N] (una matriz [9 x 3]), Qk .
2. Formar el producto:
El producto, p, será un vector de fila (un vector [i x 3 ]) en el que cada elemento es una expresión algebraica en
S
términos de las funciones seno y coseno de Qs.
3. Resolver, para encontrar la matriz (única), Qk , que satisface la identidad:
V = Dec9((ps) x Qk
Obsérvese que, de acuerdo con este método, cuando k = 0, se utilizan el decorrelacionador de no hacer nada, A0 = 1 (que no es realmente un decorrelacionador), y la función de modulador de no hacer nada, mod o(Qs) = 1 en el procedimiento anterior, para calcular Qo = H l s .
Por consiguiente, las tres matrices Q, que corresponden a las funciones de modulación modo(Qs)= 1, modi(^s)=cos3^s y modi(Qs)= sen3 Qs, son:
Figure imgf000009_0001
En este ejemplo, el método implanta el convertidor de formato definiendo la función de transferencia total como la matriz [9 x 3]:
Hmod = 9o X Qo + 9 i X Qi X Al g2 x Q2 x A2 (25)
Obsérvese que, al establecer go = 1 y gi = g2 = 0, nuestro sistema vuelve a ser idéntico al convertidor de formato de mínimos cuadrados bajo estas condiciones.
Además, al establecer go = V3 y g1 = g2 = 0, nuestro sistema vuelve a ser idéntico al convertidor de formato de mínimos cuadrados reforzado en ganancia bajo estas condiciones.
Finalmente, al establecer go = 1 y g1 = g2 = V2, llegamos a una realización en la que la función de transferencia de todo el convertidor de formato se puede escribir como:
Figure imgf000010_0001
En la figura 8 se muestra un diagrama de bloques para implantar un método de este tipo. Obsérvese que el primer modulador [9] recibe la salida del decorrelacionador Ai, lo que viene a decir que los tres canales son modificados por el mismo decorrelacionador en este ejemplo, de modo que las tres señales de salida pueden expresarse como: x f Cl = Ax x x-^t)
x^eCi — ^ x x2(t) (27)
x2eCl = A-l x x3(t)
En las ecuaciones (27), xi(t), X2(t) y X3(t) representan entradas al primer decorrelacionador [8]. Asimismo, para el segundo modulador [11] de la figura 8, tenemos que:
Figure imgf000010_0002
Con el fin de comprender la filosofía que sustenta este método, observemos la curva continua que aparece en la figura 9. Esta curva muestra Sananc a^3,9^ ' & ) 0 ganancia con la que un objeto, ubicado en <p = 0, aparecerá en un altavoz ubicado en $s (si la señal de BFih de tres canales se había convertido al formato BF4h de 9 canales utilizando la matriz Qo = H ls ). Si existe una cantidad de altavoces en el entorno de reproducción de los oyentes, ubicados en ángulos de acimut de entre -120° y 120°, todos esos altavoces contendrán algún componente de la señal de audio de los objetos, con una ganancia positiva. Por consiguiente, todos estos altavoces contendrán señales correlacionadas.
Las otras dos curvas de ganancia que se muestran aquí, trazadas con líneas discontinuas y punteadas, son ganancia^ 9(0, (j)s) y ganancia^ 9(0 ,0 S) ^as func¡ones de ganancia para un objeto en cp = 0, como aparecerían en un altavoz en la posición ^s, cuando se aplicara la conversión de formato de acuerdo con Qi y Q2, respectivamente). Estas dos funciones de ganancia, juntas, tendrán la misma potencia que la línea sólida, y, sin embargo, dos altavoces que estén separados por más de 40° no estarán correlacionados de la misma manera. Un resultado muy deseable (desde un punto de vista subjetivo, de acuerdo con las preferencias del oyente) implica una mezcla de estas tres curvas de ganancia, estando los coeficientes de mezcla (go, gi y g2) determinados por pruebas de preferencia del oyente.
Uso de la transformada de Hilbert para formar A 2
En una realización alternativa, el segundo decorrelacionador puede ser reemplazado por:
A2 = {A,} (29)
En la ecuación 29, H representa la transformada de Hilbert, lo que significa que nuestro segundo proceso de decorrelación es idéntico a nuestro primer proceso de decorrelación, existiendo un cambio de fase adicional de 90° (la transformada de Hilbert). Si sustituimos esta expresión por A2 en el segundo decorrelacionador [10] de la figura 8, llegamos al nuevo diagrama de la figura 10.
En algunas de tales implantaciones, el primer proceso de decorrelación implica una primera función de decorrelación, y el segundo proceso de decorrelación implica una segunda función de decorrelación. La segunda función de decorrelación puede ser igual a la primera función de decorrelación con un cambio de fase de aproximadamente 90 grados o de aproximadamente -90 grados. En algunos de tales ejemplos, un ángulo de aproximadamente 90 grados puede ser un ángulo en el intervalo de 89 a 91 grados, un ángulo en el intervalo de 88 a 92 grados, un ángulo en el intervalo de 87 a 93 grados, un ángulo en el intervalo de 86 grados a 94 grados, un ángulo en el intervalo de 85 grados a 95 grados, un ángulo en el intervalo de 84 grados a 96 grados, un ángulo en el intervalo de 83 grados a 97 grados, un ángulo en el intervalo de 82 grados a 98 grados, un ángulo en el intervalo de 81 grados a 99 grados, un ángulo en el intervalo de 80 grados a 100 grados, etc. De manera similar, en algunos de tales ejemplos, un ángulo de aproximadamente 90 grados puede ser un ángulo en el intervalo de -89 grados a -91 grados, un ángulo en el intervalo de -88 grados a -92 grados, un ángulo en el intervalo de -87 grados a -93 grados, un ángulo en el intervalo de -86 grados a -94 grados, un ángulo en el intervalo de -85 grados a -95 grados, un ángulo en el intervalo de -84 grados a -96 grados, un ángulo en el intervalo e de -83 grados a -97 grados, un ángulo en el intervalo de -82 grados a -98 grados, un ángulo en el intervalo de -81 grados a -99 grados, un ángulo en el intervalo de -80 grados a -100 grados, etc. En algunas implantaciones, el cambio de fase puede variar en función de la frecuencia. De acuerdo con algunas implantaciones de este tipo, el cambio de fase puede ser de aproximadamente 90 grados sólo en algún el intervalo de frecuencia de interés. En algunos de estos ejemplos, el intervalo de frecuencia de interés puede incluir un intervalo de 300 Hz a 2 kHz. Otros ejemplos pueden aplicar otros cambios de fase y/o pueden aplicar un cambio de fase de aproximadamente 90 grados sobre otros intervalos de frecuencia.
Uso de funciones de modulación alternativas
En diversos ejemplos descritos en el presente documento, el primer proceso de modulación implica una primera función de modulación, y el segundo proceso de modulación implica una segunda función de modulación, siendo la segunda función de modulación la primera función de modulación con un cambio de fase de aproximadamente 90 grados o de aproximadamente -90 grados En el procedimiento descrito anteriormente con referencia a la figura 8, la conversión de señales de entrada BF1h a señales de salida BF4h implicaba una primera función de modulación m od^s) = cos3^s y una segunda función de modulación mod2(ys) = sen3^s. Sin embargo, se pueden también implantar otras implantaciones con el uso de otras funciones de modulación en las que la segunda función de modulación es la primera función de modulación con un cambio de fase de aproximadamente 90 grados o de aproximadamente -90 grados.
Por ejemplo, el uso de las funciones de modulación, mod^(^s) = cos 2^s y mod2(tys) = sen2^s, conducen al cálculo de matrices Q alternativas:
Figure imgf000011_0001
Figure imgf000012_0001
Uso de formatos de salida alternativos
Los ejemplos dados en la sección anterior, utilizando las funciones de modulación alternativas, modi(^s) = cos2^s and mod2(tys) = sen2^s, dan como resultado matrices Q que contienen ceros en las dos últimas filas. Como resultado, estas funciones de modulación alternativas permiten reducir el formato de salida al formato BF3h de 7 canales, con las matrices Q reducidas a 7 filas:
Figure imgf000012_0002
En una realización alternativa, las matrices Q pueden también reducirse a un número menor de filas, para reducir el número de canales en el formato de salida, dando como resultado las siguientes matrices Q:
Figure imgf000012_0003
Figure imgf000013_0001
Otros formatos de campo sonoro
También se pueden procesar otros formatos de entrada de campo sonoro de acuerdo con los métodos descritos en el presente documento, que incluyen:
BF1 (ambisónico de primer orden de 4 canales, también conocido como formato WXYZ), que se puede convertir en formato a BF3 (ambisónico de tercer orden de 16 canales) usando funciones de modulación tales como mod1(^s)=cos3^s y mod2(^s)=cos3^s;
BF1 (ambisónico de primer orden de 4 canales, también conocido como formato WXYZ), que se puede convertir en formato a BF2 (ambisónico de segundo orden de 9 canales) usando funciones de modulación tales como mod1(^s)=cos2^s y mod2(^s)=cos2^s; o
BF2 (ambisónico de segundo orden de 9 canales, también conocido como formato WXYZ), que se puede convertir en formato a BF3 (ambisónico de sexto orden de 16 canales) usando funciones de modulación tales como mod 1(^s)=cos4^s y mod2(^s)=cos4^s.
Se apreciará que los métodos de modulación como se definen en el presente documento son aplicables a una amplia gama de formatos de campo sonoro.
Convertidor de formato para renderizar objetos con tamaño
La figura 11 muestra un sistema adecuado para renderizar un objeto de audio, en el que se utiliza un convertidor [3] de formato para crear una señal BF4h de 9 canales, y\(f)^y9(f), a partir de una señal BF1h de menor resolución, X1(f)-X3(t).
En el ejemplo mostrado en la figura 11, un objeto de audio, 01(f) se panoramiza para formar una señal intermedia BF4h de 9 canales, Z1(f) -zg(f). Esta señal de alta resolución se suma a la salida de BF4h, mediante el escalador [15] de ganancia directa, lo que permite que el objeto de audio, 01(f), se represente en la salida de BF4h con alta resolución (así que le aparecerá al oyente como un objeto compacto).
Además, en esta implantación, los componentes de orden 0 y de orden 1 de las señales BF4h (Z1(f) and Z2(f)” Z3(f) respectivamente) son modificados por el escalador [17] de ganancia de orden cero y por el escalador [16] de ganancia de primer orden, para formar la señal BF1h de 3 canales, X1(f)---X3(f).
En este ejemplo, el proceso [14] de tamaño genera tres señales de control de ganancia, en función del parámetro famañoi asociado al objeto, de la siguiente manera:
Cuando famañ01 = 0, los valores de ganancia son:
{ t í l t } l í l t lO — 0 } " [ GciníJtJCÍíJCanaciaOrJctiCerv ~ 0/ C j Ll t i í j tlCÍ&GananciaPrinura 0, CjílflCltldUGanandaDirccta = 1}
Cuando famañ01 = %, los valores de ganancia son:
1
{tttTTlU fíO ~ y{CiCltlClttCÍClGanaciaOr(ieiiCcro— 1; CidtíUtíCiUGananciaPnmcra ~ 1/ GuHUtíCÍClGananciaDirccta 0}
Cuando famañ01 = 1, los valores de ganancia son:
| t i l l l l i l i lO — 1 } { CjfltWnCiflGanaáaOrJcnCtro — v 3 , GlltlCltlCÍ(lGananciaPñmera — O, GdlMtídUGananciaDirccta — O }
En este ejemplo, un objeto de audio que tiene un tamaño=0 corresponde a un objeto de audio que es esencialmente una fuente puntual y un objeto de audio que tiene un tamaño=1 corresponde a un objeto de audio que tiene un tamaño igual al del entorno de la reproducción completa, como, por ejemplo, al de una habitación completa. En algunas implantaciones, para valores de tamaño1 entre 0 y 1, los valores de los tres parámetros de ganancia variarán como funciones lineales por partes, que pueden basarse en los valores definidos aquí.
De acuerdo con esta implantación, la señal BF1h, formada al escalar los componentes de orden cero y de primer orden de la señal BF4h, se pasa a través de un convertidor de formato (por ejemplo, como el tipo descrito anteriormente) para generar una señal de BF4h de formato convertido. Las señales de BF4h directas y de formato convertido se combinan luego con el fin de formar la señal de salida de BF4h de tamaño ajustado. Al ajustar los escalares de ganancia directa, de orden cero y de primer orden, el tamaño percibido del objeto panoramizado a la señal de salida de BF4h puede variar entre una fuente puntual y una fuente muy grande (que, por ejemplo, abarque toda la habitación).
Conversor de formato utilizado en un mezclador
Un mezclador como el que se muestra en la figura 12 funciona mediante el uso de un proceso [18] de lógica de dirección, que toma, como entrada, una señal de campo sonoro de baja resolución (por ejemplo, de BF1h). Por ejemplo, el proceso [18] de lógica de dirección puede identificar los componentes de la señal de campo sonoro de entrada que deben ser dirigidos con la mayor precisión posible (y procesar esos componentes para formar la señal de salida de alta resolución Z1(t)-Z9(t)). Por ejemplo, el proceso [18] de lógica de dirección puede alterar la ganancia de uno o más canales en base a la dirección de sonido dominante del momento, y puede generar Np canales de audio de datos de audio dirigidos. En el ejemplo mostrado en la figura 12, p=9, y, por lo tanto, el proceso [18] de lógica de dirección emite 9 canales de datos de audio dirigidos.
Aparte de estos componentes dirigidos de la señal de entrada, en este ejemplo, el proceso [18] de lógica de dirección emitirá una señal residual, X1(t)-X3(t). Esta señal residual contiene los componentes de audio que no se dirigen para formar la señal de alta resolución, Z1(t)-Z9(t).
En el ejemplo mostrado en la figura 12, esta señal residual, X1(t)-X3(t), es procesada por el convertidor [3] de formato, para proporcionar una versión de mayor resolución de la señal residual, adecuada para combinar con la señal dirigida, Z1(t) -Z9(t). En consecuencia, la figura 12 muestra un ejemplo de combinación de los Np canales de audio de datos de audio dirigidos con los Np canales de audio de la señal de salida de audio del convertidor de formato con el fin de producir una señal de salida de BF4h mezclada. Lo que es más, siempre que la complejidad computacional de generar la señal residual de BF1h y de aplicar el convertidor de formato a esa señal para generar la señal residual de BF4h convertida sea menor que la complejidad computacional de mezclar directamente las señales residuales al formato BF4h usando la lógica de dirección, se conseguirá una mezcla reducida de complejidad computacional. Debido a que las señales residuales son perceptiblemente menos relevantes que las señales dominantes, la señal de salida de BF4h mezclada resultante generada utilizando un mezclador, como se muestra en la figura 12, será perceptiblemente similar a la señal de salida de BF4h generada por, por ejemplo, un mezclador que utilice la lógica de dirección para generar directamente señales de salida de BF4h tanto residuales como dominantes de alta precisión, pero se pueden generar con una complejidad computacional reducida.
La figura 13 es un diagrama de bloques que proporciona ejemplos de componentes de un aparato capaz de implantar diversos métodos descritos en el presente documento. El aparato 1300 puede, por ejemplo, ser (o ser una parte de) un sistema de procesamiento de datos de audio. En algunos ejemplos, el aparato 1300 puede implantarse en un componente de otro dispositivo.
En este ejemplo, el aparato 1300 incluye un sistema 1305 de interfaz y un sistema 1310 de control. El sistema 1310 de control puede ser capaz de implantar algunos o todos los métodos descritos en el presente documento. El sistema 1310 de control puede, por ejemplo, incluir un procesador de microprocesador único o de microprocesador múltiple de uso general, un procesador de señal digital (DSP), un circuito integrado de aplicación específica (ASIC), una matriz de puertas programables en campo (FPGA) u otro dispositivo de lógica programable, otra puerta discreta u otra lógica de transistor, y/o componentes discretos de hardware.
En esta implantación, el aparato 1300 incluye un sistema 1315 de memoria. El sistema 1315 de memoria puede incluir uno o más tipos adecuados de medios de almacenamiento no transitorios, tales como memoria flash, un disco duro, etc. El sistema 1305 de interfaz puede incluir una interfaz de red, una interfaz entre el sistema de control y el sistema de memoria y/o una interfaz de dispositivo externo (tal como una interfaz de bus serie universal (USB)). Aunque el sistema 1315 de memoria se representa como un elemento separado en la figura 13, el sistema 1310 de control puede incluir al menos algo de memoria, que puede considerarse como una parte del sistema de memoria. De manera similar, en algunas implantaciones, el sistema 1315 de memoria puede ser capaz de proporcionar alguna funcionalidad del sistema de control.
En este ejemplo, el sistema 1310 de control es capaz de recibir datos de audio y otra información mediante el sistema 1305 de interfaz. En algunas implantaciones, el sistema 1310 de control puede incluir (o puede implantar) un aparato de procesamiento de audio.
En algunas implantaciones, el sistema 1310 de control puede ser capaz de realizar al menos algunos de los métodos descritos en el presente documento de acuerdo con software almacenado en uno o más medios no transitorios. Los medios no transitorios pueden incluir memoria asociada con el sistema 1310 de control, tal como memoria de acceso aleatorio (RAM) y/o memoria de sólo lectura (ROM). Los medios no transitorios pueden incluir la memoria del sistema 1315 de memoria.
La figura 14 es un diagrama de flujo que muestra bloques de ejemplo de un proceso de conversión de formato de acuerdo con algunas implantaciones. Los bloques de la figura 14 (y los de otros diagramas de flujo proporcionados en el presente documento) pueden, por ejemplo, ser realizados por el sistema 1310 de control de la figura 13 o por un aparato similar. En consecuencia, algunos bloques de la figura 14 se describen a continuación con referencia a uno o más elementos de la figura 13. Al igual que con otros métodos divulgados en el presente documento, el método descrito en la figura 14 puede incluir más o menos bloques que los indicados. Lo que es más, los bloques de los métodos divulgados en el presente documento no se realizan necesariamente en el orden indicado.
Aquí, el bloque 1405 implica recibir una señal de entrada de audio que incluye Nr. canales de entrada de audio. En este ejemplo, Nr. es un número entero > 2. De acuerdo con esta implantación, la señal de entrada de audio representa un primer formato de campo sonoro que tiene una resolución de primer formato de campo sonoro. En algunos ejemplos, el primer formato de campo sonoro puede ser un formato BF1h de campo sonoro de 3 canales, mientras que en otros ejemplos el primer formato de campo sonoro puede ser un BF1 (ambisónico de primer orden de 4 canales, también conocido como formato WXYZ), un BF2 (ambisónico de segundo orden de 9 canales) u otro formato de campo sonoro.
En el ejemplo mostrado en la figura 14, el bloque 1410 implica aplicar un primer proceso de decorrelación a un conjunto de dos o más de los canales de entrada de audio para producir un primer conjunto de canales decorrelacionados. De acuerdo con este ejemplo, el primer proceso de decorrelación mantiene una correlación entre canales del conjunto de canales de entrada de audio. El primer proceso de decorrelación puede, por ejemplo, corresponder con una de las implantaciones del decorrelacionador A1 que se describen anteriormente con referencia a la figura 8 y a la figura. 10. En estos ejemplos, aplicar el primer proceso de decorrelación implica aplicar un proceso de decorrelación idéntico a cada uno de los Nr canales de entrada de audio.
En esta implantación, el bloque 1415 implica aplicar un primer proceso de modulación al primer conjunto de canales decorrelacionados para producir un primer conjunto de canales de salida modulados y decorrelacionados. El primer proceso de modulación puede, por ejemplo, corresponder a una de las implantaciones del primer modulador [9], que se describió anteriormente con referencia a la figura 8, o a una de las implantaciones del modulador [13], que se describió anteriormente con referencia a la figura 10. En consecuencia, el proceso de modulación puede implicar la aplicación de una matriz lineal al primer conjunto de canales decorrelacionados.
De acuerdo con este ejemplo, el bloque 1420 implica combinar el primer conjunto de canales de salida modulados y decorrelacionados con dos o más canales de salida no decorrelacionados, para producir una señal de salida de audio que incluye Np canales de salida de audio. En este ejemplo, Np es un número entero > 3. En esta implantación, los canales de salida representan un segundo formato de campo sonoro que es un formato de campo sonoro de resolución relativamente más alta que el primer formato de campo sonoro. En algunos de tales ejemplos, el segundo formato de campo sonoro es un formato BF4h de campo sonoro de 9 canales. En otros ejemplos, el segundo formato de campo sonoro puede ser otro formato de campo sonoro, como un formato BF3h de 7 canales, un formato BF3h de 5 canales, un formato de campo sonoro BF2 (ambisónico de segundo orden de 9 canales), un formato de campo sonoro BF3 (ambisónico de tercer orden de 16 canales) u otro formato de campo sonoro.
De acuerdo con esta implantación, los canales de salida no decorrelacionados se corresponden con componentes de resolución más baja de la señal de salida de audio, y los canales de salida modulados y decorrelacionados se corresponden con componentes de resolución más alta de la señal de salida de audio. Haciendo referencia a las figuras 8 y 10, por ejemplo, los canales de salida y1 (t)- y3(t) proporcionan ejemplos de los canales de salida no decorrelacionados. En consecuencia, en estos ejemplos, la combinación implica combinar el primer conjunto de canales de salida modulados y decorrelacionados con Nr canales de salida no decorrelacionados, donde Nr = 3. En algunas implantaciones de este tipo, los canales de salida no decorrelacionados se producen aplicando un convertidor de formato de mínimos cuadrados para los Nr canales de entrada de audio. En el ejemplo mostrado en la figura 10, los canales de salida y4(t)- yg(t) proporcionan ejemplos de canales de salida modulados y decorrelacionados producidos por el primer proceso de decorrelación y el primer proceso de modulación.
De acuerdo con algunos de estos ejemplos, el primer proceso de decorrelación implica una primera función de decorrelación, y el segundo proceso de decorrelación implica una segunda función de decorrelación, donde la segunda función de decorrelación es la primera función de decorrelación con un cambio de fase de aproximadamente 90 grados o de aproximadamente - 90 grados. En algunas de tales implantaciones, el primer proceso de modulación implica una primera función de modulación, y el segundo proceso de modulación implica una segunda función de modulación, donde la segunda función de modulación es la primera función de modulación con un cambio de fase de aproximadamente 90 grados o de aproximadamente -90 grados.
En algunos ejemplos, la decorrelación, la modulación y la combinación producen la señal de salida de audio, de manera que, cuando la señal de salida de audio se decodifica y se proporciona a una matriz de altavoces, la distribución espacial de la energía en la matriz de altavoces es substancialmente la misma que la distribución espacial de la energía que resultaría de que la señal de entrada de audio se decodificara al conjunto de altavoces mediante un decodificador de mínimos cuadrados. Lo que es más, en algunas implantaciones de este tipo, la correlación entre altavoces adyacentes en la matriz de altavoces es substancialmente diferente de la correlación que resultaría de que la señal de entrada de audio se decodificara a la matriz de altavoces mediante un decodificador de mínimos cuadrados.
Algunas implantaciones, tales como las descritas anteriormente con referencia a la figura 11, pueden implicar la implantación de un convertidor de formato para renderizar objetos con tamaño. Algunas de tales implantaciones pueden implicar recibir una indicación del tamaño del objeto de audio, determinar que el tamaño del objeto de audio es mayor o igual que un tamaño umbral, y aplicar un valor de ganancia cero al conjunto de dos o más canales de entrada de audio. Un ejemplo de esto fue descrito anteriormente con referencia al proceso [14] de tamaño de la figura 11. En este ejemplo, si el parámetro tiempoi es ^ o más, GananciaGanaciaDirecta = 0. Por lo tanto, en este ejemplo, el escalador [15] de ganancia directa aplica una ganancia de cero a los canales de entrada z1-g(t).
Algunos ejemplos, tales como los descritos anteriormente con referencia a la figura 12, pueden implicar la implantación de un convertidor de formato en un mezclador. Algunas implantaciones de este tipo pueden implicar recibir la salida de un proceso lógico de dirección de audio, incluyendo, esta salida, Np canales de audio de datos de audio dirigidos en los que se ha alterado la ganancia de uno o más canales, en base alna dirección de sonido dominante en ese momento. Algunos ejemplos pueden implicar la combinación de los Np canales de audio de los datos de audio dirigidos con los Np canales de audio de la señal de salida de audio.
Otros usos del conversor de formato
Diversas modificaciones a las implantaciones descritas en esta divulgación pueden ser fácilmente evidentes para el experto en la técnica. Los principios generales definidos en el presente documento pueden aplicarse a otras implantaciones sin apartarse del alcance de las reivindicaciones.

Claims (7)

REIVINDICACIONES
1. Un método para procesar señales de audio, comprendiendo el método:
recibir (1405) una señal de entrada de audio que incluye Nr canales de entrada de audio, representando, la señal de entrada de audio, un primer formato de campo sonoro que tiene una primera resolución de formato de campo sonoro, siendo Nr un número entero > 2;
aplicar (1410) un primer proceso de decorrelación a un conjunto de dos o más de los canales de entrada de audio para producir un primer conjunto de canales decorrelacionados, manteniendo, el primer proceso de decorrelación, una correlación entre canales del conjunto de canales de entrada de audio;
aplicar (1415) un primer proceso de modulación al primer conjunto de canales decorrelacionados para producir un primer conjunto de canales de salida modulados y decorrelacionados; y
combinar (1420) el primer conjunto de canales de salida modulados y decorrelacionados con Nr canales de salida no decorrelacionados para producir una señal de salida de audio que incluye Np canales de salida de audio, siendo Np un número entero > 3,
en el que cada uno de los Nr canales de salida no decorrelacionados se produce aplicando una ganancia al respectivo de los Nr canales de entrada de audio,
caracterizado porque los Np canales de salida de audio representan un segundo formato de campo sonoro que es un formato de campo sonoro de resolución relativamente más alta que el primer formato de campo sonoro, y porque incluyen los Nr canales de salida no decorrelacionados correspondientes a componentes de resolución más baja de la señal de salida de audio y los canales de salida modulados y decorrelacionados correspondientes a componentes de mayor resolución de la señal de salida de audio.
2. El método de la reivindicación 1, que comprende adicionalmente:
aplicar un segundo proceso de decorrelación al conjunto de dos o más de los canales de entrada de audio para producir un segundo conjunto de canales decorrelacionados, manteniendo, el segundo proceso de decorrelación, una correlación entre canales del conjunto de canales de entrada de audio; y
aplicar un segundo proceso de modulación al segundo conjunto de canales decorrelacionados para producir un segundo conjunto de canales de salida modulados y decorrelacionados, en el que la combinación implica combinar el segundo conjunto de canales de salida modulados y decorrelacionados con el primer conjunto de canales de salida modulados y decorrelacionados y con los canales de salida no decorrelacionados.
3. El método de la reivindicación 2, en el que el primer proceso de decorrelación comprende una primera función de decorrelación, y el segundo proceso de decorrelación comprende una segunda función de decorrelación, comprendiendo, la segunda función de decorrelación, la primera función de decorrelación con un cambio de fase de aproximadamente 90 grados o de aproximadamente -90 grados.
4. El método de la reivindicación 2 o de la reivindicación 3, en el que el primer proceso de modulación comprende una primera función de modulación, y el segundo proceso de modulación comprende una segunda función de modulación, comprendiendo, la segunda función de modulación, la primera función de modulación con un cambio de fase de aproximadamente 90 grados o de aproximadamente -90 grados.
5. El método de cualquiera de las reivindicaciones 1-4, en el que recibir la señal de entrada de audio implica recibir una primera salida de un proceso lógico de dirección de audio, incluyendo, la primera salida, los Nr canales de entrada de audio, comprendiendo adicionalmente combinar los Np canales de audio de la señal de salida de audio con una segunda salida del proceso lógico de dirección de audio, incluyendo, la segunda salida, Np canales de audio de datos de audio dirigidos en los que se ha alterado la ganancia de uno o más canales, en base a la dirección de sonido dominante en ese momento.
6. Un programa informático con instrucciones, las cuales, cuando son ejecutadas por un dispositivo o por un sistema informático, inducen a dicho dispositivo o sistema informático a realizar el método de cualquiera de las reivindicaciones 1-5.
7. Un aparato, que comprende:
un sistema de interfaz; y
un sistema de control configurado para realizar el método de cualquiera de las reivindicaciones 1-5.
ES19172220T 2015-03-03 2016-03-02 Realce de señales de audio espacial por decorrelación modulada Active ES2922373T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562127613P 2015-03-03 2015-03-03
US201662298905P 2016-02-23 2016-02-23

Publications (1)

Publication Number Publication Date
ES2922373T3 true ES2922373T3 (es) 2022-09-14

Family

ID=55854783

Family Applications (1)

Application Number Title Priority Date Filing Date
ES19172220T Active ES2922373T3 (es) 2015-03-03 2016-03-02 Realce de señales de audio espacial por decorrelación modulada

Country Status (6)

Country Link
US (5) US10210872B2 (es)
EP (3) EP3611727B1 (es)
JP (3) JP6576458B2 (es)
CN (2) CN112002337A (es)
ES (1) ES2922373T3 (es)
WO (1) WO2016141023A1 (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016141023A1 (en) 2015-03-03 2016-09-09 Dolby Laboratories Licensing Corporation Enhancement of spatial audio signals by modulated decorrelation
WO2016210174A1 (en) 2015-06-25 2016-12-29 Dolby Laboratories Licensing Corporation Audio panning transformation system and method
US10015618B1 (en) * 2017-08-01 2018-07-03 Google Llc Incoherent idempotent ambisonics rendering
SG11202007629UA (en) * 2018-07-02 2020-09-29 Dolby Laboratories Licensing Corp Methods and devices for encoding and/or decoding immersive audio signals

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11275696A (ja) * 1998-01-22 1999-10-08 Sony Corp ヘッドホン、ヘッドホンアダプタおよびヘッドホン装置
WO2002078388A2 (en) * 2001-03-27 2002-10-03 1... Limited Method and apparatus to create a sound field
US8363865B1 (en) 2004-05-24 2013-01-29 Heather Bottum Multiple channel sound system using multi-speaker arrays
CN101014998B (zh) * 2004-07-14 2011-02-23 皇家飞利浦电子股份有限公司 音频通道转换
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
WO2007010451A1 (en) * 2005-07-19 2007-01-25 Koninklijke Philips Electronics N.V. Generation of multi-channel audio signals
JP4938015B2 (ja) * 2005-09-13 2012-05-23 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 3次元音声を生成する方法及び装置
US8515468B2 (en) 2005-09-21 2013-08-20 Buckyball Mobile Inc Calculation of higher-order data from context data
WO2007043388A1 (ja) * 2005-10-07 2007-04-19 Matsushita Electric Industrial Co., Ltd. 音響信号処理装置および音響信号処理方法
WO2007118583A1 (en) * 2006-04-13 2007-10-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decorrelator
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
BRPI0910792B1 (pt) * 2008-07-11 2020-03-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. "sintetizador de sinal de áudio e codificador de sinal de áudio"
TWI444989B (zh) * 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
CN103165136A (zh) * 2011-12-15 2013-06-19 杜比实验室特许公司 音频处理方法及音频处理设备
EP2830334A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830336A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix
BR112016001738B1 (pt) * 2013-07-31 2023-04-04 Dolby International Ab Método, aparelho incluindo um sistema de renderização de áudio e meio não transitório de processamento de objetos de áudio espacialmente difusos ou grandes
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
WO2016141023A1 (en) 2015-03-03 2016-09-09 Dolby Laboratories Licensing Corporation Enhancement of spatial audio signals by modulated decorrelation

Also Published As

Publication number Publication date
US20200273469A1 (en) 2020-08-27
US20180018977A1 (en) 2018-01-18
EP4123643A1 (en) 2023-01-25
CN107430861B (zh) 2020-10-16
US20190180760A1 (en) 2019-06-13
EP3611727B1 (en) 2022-05-04
EP3266021B1 (en) 2019-05-08
US10593338B2 (en) 2020-03-17
CN112002337A (zh) 2020-11-27
JP6576458B2 (ja) 2019-09-18
JP2018511213A (ja) 2018-04-19
US11562750B2 (en) 2023-01-24
JP2020005278A (ja) 2020-01-09
EP3266021A1 (en) 2018-01-10
US20230230600A1 (en) 2023-07-20
JP6926159B2 (ja) 2021-08-25
JP2021177668A (ja) 2021-11-11
US10210872B2 (en) 2019-02-19
EP3611727A1 (en) 2020-02-19
US11081119B2 (en) 2021-08-03
US20220028400A1 (en) 2022-01-27
WO2016141023A1 (en) 2016-09-09
CN107430861A (zh) 2017-12-01
JP7321218B2 (ja) 2023-08-04

Similar Documents

Publication Publication Date Title
US20220322026A1 (en) Method and apparatus for rendering acoustic signal, and computerreadable recording medium
ES2772851T3 (es) Mezcla de matriz basada en multipletes para audio de múltiples canales de alta cantidad de canales
ES2922373T3 (es) Realce de señales de audio espacial por decorrelación modulada
US8824709B2 (en) Generation of 3D sound with adjustable source positioning
ES2956344T3 (es) Descodificador de audio y procedimiento de descodificación
EP2329660B1 (en) Enhancing the reproduction of multiple audio channels
US10582327B2 (en) Systems and methods for providing an immersive listening experience in a limited area using a rear sound bar
WO2015089468A2 (en) Apparatus and method for sound stage enhancement
BR112017014288B1 (pt) Aparelho e método de processamento de sinal de áudio
BR112017017332B1 (pt) Aparelho de processamento de sinal de áudio e método para filtrar um sinal de áudio
JP6543627B2 (ja) 一定出力ペアワイズパニングによるマトリクスデコーダ
US11212631B2 (en) Method for generating binaural signals from stereo signals using upmixing binauralization, and apparatus therefor
EP3402221B1 (en) Audio processing device and method, and program
ES2641580T3 (es) Generación de señal difusa adaptativa en un mezclador ascendente
Takanen et al. Binaural assessment of parametrically coded spatial audio signals